کدهای یک خطی پانداس برای تحلیلگران داده
کتابخانه Pandas یکی از مهمترین ابزارهای تحلیل داده در پایتون است. تحلیلگران داده تقریبا در هر پروژهای با آن سر و کار دارند؛ از پاکسازی دادهها گرفته تا تحلیل و استخراج بینش.
یکی از ویژگیهای جذاب پانداس این است که بسیاری از کارهای پیچیده را میتوان با کدهای یکخطی (One-Liner) انجام داد. این کدها باعث میشوند تحلیل داده سریعتر، خواناتر و حرفهایتر انجام شود.
در این مقاله چند مورد از کاربردیترین کدهای یکخطی پانداس برای تحلیلگران داده را بررسی میکنیم.
مشاهده سریع اطلاعات دیتاست
معمولا اولین کاری که بعد از خواندن داده انجام میدهیم بررسی ساختار دیتاست است.
df.info()
این دستور اطلاعات مهمی مثل موارد زیر را نشان میدهد:
- تعداد سطرها
- نام ستونها
- نوع داده هر ستون
- تعداد دادههای غیر Null
برای مشاهده چند ردیف اول نیز میتوانید از این دستور استفاده کنید:
df.head()
شمارش مقادیر یکتا در یک ستون
گاهی لازم است بدانیم هر مقدار چند بار در یک ستون تکرار شده است.
df["column_name"].value_counts()
مثلا اگر ستونی به نام city داشته باشیم، این دستور تعداد تکرار هر شهر را نمایش میدهد.
حذف ردیفهای تکراری
در بسیاری از دیتاستها دادههای تکراری وجود دارند. حذف آنها تنها با یک خط کد انجام میشود.
df = df.drop_duplicates()
اگر بخواهید بر اساس یک ستون خاص تکراریها حذف شوند:
df = df.drop_duplicates(subset="email")
حذف مقادیر Null
برای حذف تمام ردیفهایی که مقدار خالی دارند:
df = df.dropna()
اگر فقط ستون خاصی مهم باشد:
df = df.dropna(subset=["age"])
مرتبسازی دادهها
برای مرتبسازی دادهها بر اساس یک ستون:
df = df.sort_values(by="salary", ascending=False)
در این مثال دادهها بر اساس ستون salary از بیشترین به کمترین مرتب میشوند.
فیلتر کردن دادهها
یکی از رایجترین کارها در تحلیل داده، فیلتر کردن دادهها است.
مثلا انتخاب کاربران بالای ۳۰ سال:
df[df["age"] > 30]
یا ترکیب چند شرط:
df[(df["age"] > 30) & (df["country"] == "Iran")]
ساخت ستون جدید
میتوان با یک خط کد ستون جدید ایجاد کرد.
df["total_price"] = df["price"] * df["quantity"]
این کار در تحلیل داده بسیار رایج است، مثلا برای:
- محاسبه درآمد
- محاسبه امتیاز
- ساخت ویژگی جدید برای مدلهای یادگیری ماشین
محاسبه آمار خلاصه
برای دریافت آمار توصیفی کل دیتاست:
df.describe()
این دستور اطلاعاتی مانند موارد زیر را نمایش میدهد:
- میانگین
- انحراف معیار
- حداقل و حداکثر
- چارکها
گروهبندی دادهها
یکی از قدرتمندترین قابلیتهای پانداس groupby است.
مثلا محاسبه میانگین حقوق در هر شهر:
df.groupby("city")["salary"].mean()
یا چندین محاسبه همزمان:
df.groupby("city")["salary"].agg(["mean", "max", "min"])
تبدیل سریع ستونها
گاهی لازم است نوع داده یک ستون تغییر کند.
df["age"] = df["age"].astype(int)
یا تبدیل تاریخ:
df["date"] = pd.to_datetime(df["date"])
سخنان پایانی
کتابخانه پانداس ابزار بسیار قدرتمندی برای تحلیل داده است و بسیاری از عملیات مهم آن را میتوان با کدهای یکخطی انجام داد. یاد گرفتن این تکنیکها باعث میشود:
- سرعت تحلیل داده افزایش پیدا کند
- کدها خواناتر شوند
- بهرهوری تحلیلگر داده بالا برود
اگر به عنوان تحلیلگر داده یا برنامهنویس پایتون کار میکنید، تسلط بر این الگوهای کوتاه و کاربردی پانداس میتواند تاثیر زیادی در کیفیت کار شما داشته باشد.
اگر دوست دارین تحلیلداده رو عمیق یاد بگیرین دوره تحلیلداده با پایتون را بررسی کنید.
در عمل نیز هرچه بیشتر با دیتاستهای واقعی کار کنید، استفاده از این One-Linerهای پانداس برایتان طبیعیتر و سریعتر خواهد شد.