ریاضیاتی که برای تحلیل داده لازم دارین (راهنمای کامل و کاربردی)
تحلیل داده (Data Analysis) فقط کار با پایتون و Pandas نیست. بخش مهمی از این مسیر به ریاضیات مربوط میشود؛ چون شما در مراحل مختلف تحلیل داده باید بتوانید دادهها را درک، مدلسازی، خلاصهسازی و تفسیر کنید. اما قرار نیست کل ریاضیات دانشگاه را یاد بگیرید. فقط برخی از شاخهها که کاربرد مستقیم دارند کافی است.
در این مقاله همه مباحث ریاضی مهم برای تحلیل داده را معرفی کرده و توضیح میدهیم این مباحث در کدام مراحل کار و برای چه کارهایی استفاده میشوند.
۱. آمار توصیفی (Descriptive Statistics)
این بخش پایهایترین و مهمترین قسمت ریاضیات برای تحلیل داده است. تحلیلگر داده بدون آمار، عملاً نمیتواند داده را بفهمد.
چه چیزهایی باید بلد باشید؟
- میانگین
- میانه
- نما
- واریانس
- انحراف معیار
- کوواریانس
- همبستگی (Correlation)
در تحلیل داده کجا استفاده میشود؟
- درک کلی از دادهها و توزیع آنها
- خلاصه کردن دادهها قبل از تحلیل
- پیدا کردن رفتارهای غیرعادی (Outliers)
- تشخیص اینکه دو ویژگی چقدر با هم رابطه دارند
مثال کاربردی
- بررسی اینکه میانگین حقوق کارکنان چقدر است
- فهمیدن اینکه آیا افزایش سن با افزایش درآمد رابطه دارد
۲. آمار استنباطی (Inferential Statistics)
وقتی روی کل جمعیت داده ندارید و فقط نمونه در اختیار دارید، برای نتیجهگیری باید از آمار استنباطی کمک بگیرید.
مباحث مهم
- نمونهبرداری
- توزیعهای آماری (نرمال، پواسون، یکنواخت و...)
- آزمون فرضیه (t-test, chi-square)
- فاصله اطمینان (Confidence Interval)
- خطای نوع یک و دو
کاربردها در تحلیل داده
- بررسی اینکه آیا یک الگو تصادفی است یا واقعی
- مقایسه دو گروه (مثل مقایسه فروش ماه قبل با این ماه)
- بررسی تاثیر یک تغییر (A/B Testing)
مثال کاربردی
- آیا افزایش فروش واقعی بوده یا فقط یک اتفاق موقت؟
- آیا تبلیغ جدید بهتر از تبلیغ قبلی کار میکند؟
۳. احتمال (Probability)
بخش زیادی از تحلیل داده و حتی یادگیری ماشین بر پایه احتمال است. شما باید بتوانید ناقطعی بودن دادهها را مدل کنید.
مباحث مهم
- احتمال شرطی
- قانون زنجیرهای
- قانون ضرب
- متغیر تصادفی
- امید ریاضی
- توزیع احتمال گسسته/پیوسته
کاربردها در تحلیل داده
- مدل کردن رفتارهای تصادفی
- پیشبینی بر اساس دادههای ناقص
- تحلیل ریسک
- کمک به ساخت الگوریتمهای ML پایه احتمالاتی
مثال کاربردی
- احتمال اینکه یک مشتری خرید کند چقدر است؟
- احتمال خطا در یک سیستم چه مقدار است؟
۴. جبر خطی (Linear Algebra)
اگرچه در تحلیل داده خالص کمتر استفاده میشود، اما در تحلیل داده پیشرفته، یادگیری ماشین و تحلیل ماتریسی بسیار مهم است.
مباحث مهم
- ماتریس و بردار
- ضرب ماتریسی
- دترمینان و معکوس
- مقدارویژه و بردارویژه
- تجزیههای ماتریسی (SVD, PCA)
کاربردها
- کاهش ابعاد (PCA)
- فشردهسازی دادهها
- کار روی دیتاستهای بزرگ
- تحلیل رگرسیون خطی
مثال کاربردی
- کاهش ابعاد یک دیتاست ۱۰۰۰ ویژگی به ۱۰ ویژگی
- فهمیدن اینکه کدام ویژگیها بیشترین تاثیر را دارند
۵. حسابان (Calculus)
برای تحلیل داده سنتی خیلی لازم نیست، اما برای مدلسازی، بهینهسازی و یادگیری ماشین مهم است.
مباحث ضروری
- مشتق
- انتگرال
- گرادیان
- بهینهسازی (Gradient Descent)
کاربردها در تحلیل داده
- پیدا کردن نقطههای کمینه/بیشینه
- تنظیم پارامترهای مدلهای ML
- درک رفتار تغییرات داده
مثال کاربردی
- الگوریتم Gradient Descent که برای آموزش مدلهای ML استفاده میشود
- فهمیدن اینکه تغییر یک ویژگی چه تاثیری روی خروجی دارد
۶. نظریه مجموعهها (Set Theory)
پایهایترین بخش ریاضیات که برای درک ساختار دادهها لازم است.
مباحث مهم
- اجتماع
- اشتراک
- تفاضل
- زیرمجموعه
- روابط و تابعها
کاربردها
- ترکیب چند دیتاست
- پاکسازی دادهها
- تطبیق دادههای متنی، دستهبندی و گروهبندی
مثال کاربردی
- پیدا کردن کاربرانی که هم در کمپین الف شرکت کردهاند و هم در ب
- مقایسه دو مجموعه داده از منابع مختلف
۷. بهینهسازی (Optimization)
در پروژههای تحلیل داده پیشرفته و مدلسازی آماری، باید بتوانید مدلها را به بهترین حالت تنظیم کنید.
مباحث مهم
- توابع هزینه
- کمینه/بیشینهسازی
- برنامهریزی خطی
کاربردها
- پیدا کردن بهترین پارامترهای مدل
- کاهش خطای پیشبینی
- تخصیص بهینه منابع
مثال کاربردی
- کمینه کردن خطای مدل پیشبینی فروش
- انتخاب بهترین ترکیب قیمتگذاری
۸. ریاضیات گسسته (Discrete Math)
وقتی با ساختارها و دادههای غیر عددی سروکار دارید این بخش کمک میکند.
مباحث مهم
- گرافها
- درختها
- احتمال گسسته
- شمارش
کاربردها
- تحلیل شبکهها
- طراحی الگوریتمهای پردازش داده
- تحلیل روابط در دادههای پیچیده
مثال کاربردی
- تحلیل شبکههای اجتماعی
- پیدا کردن ارتباط کاربران یا محصولات
سخن پایانی
برای تحلیل داده لازم نیست کل ریاضیات دانشگاه را بلد باشید. فقط باید مجموعهای از مباحث کاربردی را یاد بگیرید:
- آمار توصیفی برای فهم داده
- آمار استنباطی برای نتیجهگیری
- احتمال برای مدلسازی رفتارهای تصادفی
- جبر خطی و حسابان برای تحلیلهای پیشرفته
- نظریه مجموعهها برای کار با دیتاستها
- بهینهسازی برای ساخت مدلهای بهتر
اگر این بخشها را یاد بگیرید، کار کردن با دادهها برایتان بسیار سادهتر و حرفهایتر میشود.