پانداس یکی از پرکاربردترین کتابخانه های تحلیل داده در زبان برنامه نویسی پایتون است که به خصوص در حوزه های علوم داده یادگیری ماشین و مهندسی داده مورد توجه قرار می گیرد. با این کتابخانه می توانید به راحتی داده های جدولی را مدیریت تجزیه و تحلیل کنید و به سرعت به نتایج دقیق برسید.

پانداس چیست و چرا مهم است؟
کتابخانه ی Pandas امکاناتی برای کار با داده های ساختاریافته فراهم می کند که امکان تجزیه تحلیل و تغییر داده ها را آسان می کند. با Pandas می توانید داده ها را از منابع مختلف مثل فایل های CSV پایگاه های داده و Excel وارد کرده و در قالب DataFrame که شبیه به جداول اکسل است مدیریت کنید.
نصب کتابخانه پانداس
برای شروع آموزش پایتون در بخش نصب کتابخانه پانداس باید Pandas را در محیط پایتون خود نصب کنید. اگر از ابزار Anaconda استفاده می کنید این کتابخانه به صورت پیش فرض نصب است ولی اگر از محیط های دیگر استفاده می کنید دستور زیر را در ترمینال اجرا کنید :
bash
Copy code
pip install pandas
ساختار DataFrame و Series
DataFrame و Series دو ساختار داده اصلی در Pandas هستند. DataFrame به شما امکان می دهد داده ها را در قالب جداول مدیریت کنید و Series ستون های خاصی از این جداول هستند.
DataFrame چیست؟
DataFrame یک ساختار جدولی است که در آن داده ها به صورت ردیف ها و ستون ها مرتب شده اند. این ساختار برای کار با داده های حجیم و چند بعدی بسیار مفید است.
Series چیست؟
Series یک آرایه یک بعدی است که نوعی داده برداری محسوب می شود. هر Series یک ستون از DataFrame محسوب می شود.
ساخت DataFrame
برای شروع کار با DataFrame می توانید به سادگی از یک لیست یا دیکشنری استفاده کنید. مثال زیر نحوه ساخت یک DataFrame را از یک دیکشنری نشان می دهد :
python
Copy code
import pandas as pd
data = {
‘نام’ : [‘علی’, ‘حسن’, ‘مهسا’],
‘سن’ : [۲۵, ۳۰, ۲۲],
‘شهر’ : [‘تهران’, ‘مشهد’, ‘شیراز’]
}
df = pd.DataFrame(data)
print(df)
وارد کردن داده ها از فایل
در Pandas می توانید به راحتی داده ها را از فایل های CSV اکسل و سایر منابع وارد کنید. دستور زیر داده ها را از یک فایل CSV وارد می کند :
python
Copy code
df = pd.read_csv(‘path/to/your/file.csv’)
عملیات پایه ای روی DataFrame
پس از ساخت DataFrame می توانید عملیات متنوعی روی آن انجام دهید. در این بخش با برخی از متداول ترین عملیات Pandas آشنا می شویم.
نمایش اطلاعات کلی از DataFrame
با استفاده از متدهای زیر می توانید اطلاعات کلی از DataFrame دریافت کنید :
python
Copy code
df.head() # نمایش اولین پنج ردیف
df.tail() # نمایش آخرین پنج ردیف
df.info() # نمایش اطلاعات کلی DataFrame
df.describe() # نمایش آمار توصیفی DataFrame
انتخاب و فیلتر کردن داده ها
برای انتخاب داده ها در Pandas می توانید از برش ها و شرط ها استفاده کنید.
انتخاب ستون ها
می توانید ستون خاصی از DataFrame را انتخاب کنید :
python
Copy code
df[‘نام’]
فیلتر کردن داده ها بر اساس شرط
می توانید داده ها را بر اساس شرط خاصی فیلتر کنید. مثال زیر افرادی که سنشان بیشتر از ۲۵ است را فیلتر می کند :
python
Copy code
df[df[‘سن’] > ۲۵]
اضافه کردن و حذف ستون ها
اضافه و حذف ستون ها در Pandas بسیار آسان است. برای اضافه کردن ستون جدید کافی است به صورت زیر عمل کنید :
python
Copy code
df[‘نمره’] = [۹۰, ۸۵, ۹۵]
و برای حذف یک ستون از متد drop استفاده می شود :
python
Copy code
df.drop(‘نمره’, axis=۱, inplace=True)
مرتب سازی داده ها
Pandas امکانات مناسبی برای مرتب سازی داده ها دارد. به طور مثال برای مرتب سازی بر اساس سن به صورت صعودی :
python
Copy code
df.sort_values(‘سن’, ascending=True, inplace=True)
گروه بندی داده ها
در بسیاری از مواقع نیاز دارید داده ها را بر اساس یک یا چند ستون گروه بندی کنید. متد groupby این کار را برای شما انجام می دهد :
python
Copy code
df.groupby(‘شهر’).mean()
عملیات آماری و تحلیلی
Pandas از توابع زیادی برای محاسبات آماری و تحلیلی پشتیبانی می کند. برخی از این توابع عبارتند از :
- mean() : میانگین
- sum() : مجموع
- count() : تعداد
- min() : حداقل
- max() : حداکثر
مثال :
python
Copy code
df[‘سن’].mean()
جدول های محوری (Pivot Table)
جدول های محوری به شما این امکان را می دهند تا داده ها را به شکلی خاص سازماندهی کنید. این ویژگی به خصوص برای تجزیه و تحلیل داده ها بسیار مفید است :
python
Copy code
pivot_table = df.pivot_table(index=’شهر’, values=’سن’, aggfunc=’mean’)
print(pivot_table)
شهر | سن |
تهران | ۲۵ |
مشهد | ۳۰ |
شیراز | ۲۲ |
ادغام و ترکیب DataFrame ها
Pandas ابزارهای متنوعی برای ادغام و ترکیب داده ها ارائه می دهد. از متدهای merge و concat می توانید برای ترکیب چند DataFrame استفاده کنید.
python
Copy code
df۱ = pd.DataFrame({‘نام’ : [‘علی’, ‘حسن’], ‘سن’ : [۲۵, ۳۰]})
df۲ = pd.DataFrame({‘نام’ : [‘علی’, ‘حسن’], ‘شهر’ : [‘تهران’, ‘مشهد’]})
merged_df = pd.merge(df۱, df۲, on=’نام’)
print(merged_df)
رسم نمودار با پانداس
کتابخانه Pandas با استفاده از Matplotlib می تواند داده ها را به صورت گرافیکی نمایش دهد. به عنوان مثال :
python
Copy code
import matplotlib.pyplot as plt
df[‘سن’].plot(kind=’bar’)
plt.show()
نتیجه گیری
کتابخانه Pandas یک ابزار ضروری برای تحلیل داده ها در پایتون است و امکانات متعددی برای مدیریت تغییر و تجزیه وتحلیل داده ها ارائه می دهد. با یادگیری Pandas به راحتی می توانید پروژه های تحلیل داده را مدیریت کنید.
پرسش های متداول
۱. آیا Pandas برای تجزیه و تحلیل داده های حجیم مناسب است؟
بله Pandas برای تجزیه و تحلیل داده های حجیم مناسب است اما اگر داده ها بسیار بزرگ باشند بهتر است از کتابخانه هایی مثل Dask استفاده کنید که امکانات مشابهی دارند.
۲. آیا می توانم از Pandas در کنار سایر کتابخانه ها مثل Numpy و Matplotlib استفاده کنم؟
بله Pandas به خوبی با Numpy و Matplotlib سازگار است و می توانید از این کتابخانه ها در کنار یکدیگر استفاده کنید.
۳. آیا Pandas قابلیت کار با داده های تاریخ و زمان را دارد؟
بله Pandas توابع بسیار خوبی برای کار با داده های تاریخی و زمانی دارد و می توانید به راحتی تاریخ ها را در DataFrame مدیریت کنید.
آیا شما به دنبال کسب اطلاعات بیشتر در مورد "آموزش کتابخانه پانداس (Pandas) در پایتون" هستید؟ با کلیک بر روی تکنولوژی, کسب و کار ایرانی، آیا به دنبال موضوعات مشابهی هستید؟ برای کشف محتواهای بیشتر، از منوی جستجو استفاده کنید. همچنین، ممکن است در این دسته بندی، سریال ها، فیلم ها، کتاب ها و مقالات مفیدی نیز برای شما قرار داشته باشند. بنابراین، همین حالا برای کشف دنیای جذاب و گسترده ی محتواهای مرتبط با "آموزش کتابخانه پانداس (Pandas) در پایتون"، کلیک کنید.