کدهای یک خطی پانداس برای تحلیلگران داده

کتابخانه Pandas یکی از مهم‌ترین ابزارهای تحلیل داده در پایتون است. تحلیلگران داده تقریبا در هر پروژه‌ای با آن سر و کار دارند؛ از پاکسازی داده‌ها گرفته تا تحلیل و استخراج بینش.

یکی از ویژگی‌های جذاب پانداس این است که بسیاری از کارهای پیچیده را می‌توان با کدهای یک‌خطی (One-Liner) انجام داد. این کدها باعث می‌شوند تحلیل داده سریع‌تر، خواناتر و حرفه‌ای‌تر انجام شود.

در این مقاله چند مورد از کاربردی‌ترین کدهای یک‌خطی پانداس برای تحلیلگران داده را بررسی می‌کنیم.

مشاهده سریع اطلاعات دیتاست

معمولا اولین کاری که بعد از خواندن داده انجام می‌دهیم بررسی ساختار دیتاست است.

df.info()

این دستور اطلاعات مهمی مثل موارد زیر را نشان می‌دهد:

تعداد سطرها
نام ستون‌ها
نوع داده هر ستون
تعداد داده‌های غیر Null

برای مشاهده چند ردیف اول نیز می‌توانید از این دستور استفاده کنید:

df.head()

شمارش مقادیر یکتا در یک ستون

گاهی لازم است بدانیم هر مقدار چند بار در یک ستون تکرار شده است.

df["column_name"].value_counts()

مثلا اگر ستونی به نام city داشته باشیم، این دستور تعداد تکرار هر شهر را نمایش می‌دهد.

حذف ردیف‌های تکراری

در بسیاری از دیتاست‌ها داده‌های تکراری وجود دارند. حذف آن‌ها تنها با یک خط کد انجام می‌شود.

df = df.drop_duplicates()

اگر بخواهید بر اساس یک ستون خاص تکراری‌ها حذف شوند:

df = df.drop_duplicates(subset="email")

حذف مقادیر Null

برای حذف تمام ردیف‌هایی که مقدار خالی دارند:

df = df.dropna()

اگر فقط ستون خاصی مهم باشد:

df = df.dropna(subset=["age"])

مرتب‌سازی داده‌ها

برای مرتب‌سازی داده‌ها بر اساس یک ستون:

df = df.sort_values(by="salary", ascending=False)

در این مثال داده‌ها بر اساس ستون salary از بیشترین به کمترین مرتب می‌شوند.

فیلتر کردن داده‌ها

یکی از رایج‌ترین کارها در تحلیل داده، فیلتر کردن داده‌ها است.

مثلا انتخاب کاربران بالای ۳۰ سال:

df[df["age"] > 30]

یا ترکیب چند شرط:

df[(df["age"] > 30) & (df["country"] == "Iran")]

ساخت ستون جدید

می‌توان با یک خط کد ستون جدید ایجاد کرد.

df["total_price"] = df["price"] * df["quantity"]

این کار در تحلیل داده بسیار رایج است، مثلا برای:

محاسبه درآمد
محاسبه امتیاز
ساخت ویژگی جدید برای مدل‌های یادگیری ماشین

محاسبه آمار خلاصه

برای دریافت آمار توصیفی کل دیتاست:

df.describe()

این دستور اطلاعاتی مانند موارد زیر را نمایش می‌دهد:

میانگین
انحراف معیار
حداقل و حداکثر
چارک‌ها

گروه‌بندی داده‌ها

یکی از قدرتمندترین قابلیت‌های پانداس groupby است.

مثلا محاسبه میانگین حقوق در هر شهر:

df.groupby("city")["salary"].mean()

یا چندین محاسبه هم‌زمان:

df.groupby("city")["salary"].agg(["mean", "max", "min"])

تبدیل سریع ستون‌ها

گاهی لازم است نوع داده یک ستون تغییر کند.

df["age"] = df["age"].astype(int)

یا تبدیل تاریخ:

df["date"] = pd.to_datetime(df["date"])

سخنان پایانی

کتابخانه پانداس ابزار بسیار قدرتمندی برای تحلیل داده است و بسیاری از عملیات مهم آن را می‌توان با کدهای یک‌خطی انجام داد. یاد گرفتن این تکنیک‌ها باعث می‌شود:

سرعت تحلیل داده افزایش پیدا کند
کدها خواناتر شوند
بهره‌وری تحلیلگر داده بالا برود

اگر به عنوان تحلیلگر داده یا برنامه‌نویس پایتون کار می‌کنید، تسلط بر این الگوهای کوتاه و کاربردی پانداس می‌تواند تاثیر زیادی در کیفیت کار شما داشته باشد.

اگر دوست دارین تحلیل‌داده رو عمیق یاد بگیرین دوره تحلیل‌داده با پایتون را بررسی کنید.

در عمل نیز هرچه بیشتر با دیتاست‌های واقعی کار کنید، استفاده از این One-Linerهای پانداس برایتان طبیعی‌تر و سریع‌تر خواهد شد.