آموزش کتابخانه پانداس (Pandas) در پایتون

پانداس یکی از پرکاربردترین کتابخانه های تحلیل داده در زبان برنامه نویسی پایتون است که به خصوص در حوزه های علوم داده یادگیری ماشین و مهندسی داده مورد توجه قرار می گیرد. با این کتابخانه می توانید به راحتی داده های جدولی را مدیریت تجزیه و تحلیل کنید و به سرعت به نتایج دقیق برسید.

آموزش کتابخانه پانداس (Pandas) در پایتون

پانداس چیست و چرا مهم است؟

کتابخانه ی Pandas امکاناتی برای کار با داده های ساختاریافته فراهم می کند که امکان تجزیه تحلیل و تغییر داده ها را آسان می کند. با Pandas می توانید داده ها را از منابع مختلف مثل فایل های CSV پایگاه های داده و Excel وارد کرده و در قالب DataFrame که شبیه به جداول اکسل است مدیریت کنید.

نصب کتابخانه پانداس

برای شروع آموزش پایتون در بخش نصب کتابخانه پانداس باید Pandas را در محیط پایتون خود نصب کنید. اگر از ابزار Anaconda استفاده می کنید این کتابخانه به صورت پیش فرض نصب است ولی اگر از محیط های دیگر استفاده می کنید دستور زیر را در ترمینال اجرا کنید :

bash

Copy code

pip install pandas

آموزش کتابخانه پانداس (Pandas) در پایتون

ساختار DataFrame و Series

DataFrame و Series دو ساختار داده اصلی در Pandas هستند. DataFrame به شما امکان می دهد داده ها را در قالب جداول مدیریت کنید و Series ستون های خاصی از این جداول هستند.

DataFrame چیست؟

DataFrame یک ساختار جدولی است که در آن داده ها به صورت ردیف ها و ستون ها مرتب شده اند. این ساختار برای کار با داده های حجیم و چند بعدی بسیار مفید است.

Series چیست؟

Series یک آرایه یک بعدی است که نوعی داده برداری محسوب می شود. هر Series یک ستون از DataFrame محسوب می شود.

ساخت DataFrame

برای شروع کار با DataFrame می توانید به سادگی از یک لیست یا دیکشنری استفاده کنید. مثال زیر نحوه ساخت یک DataFrame را از یک دیکشنری نشان می دهد :

python

Copy code

import pandas as pd

 

data = {

 ‘نام’ : [‘علی’, ‘حسن’, ‘مهسا’],

 ‘سن’ : [۲۵, ۳۰, ۲۲],

 ‘شهر’ : [‘تهران’, ‘مشهد’, ‘شیراز’]

}

 

df = pd.DataFrame(data)

print(df)

وارد کردن داده ها از فایل

در Pandas می توانید به راحتی داده ها را از فایل های CSV اکسل و سایر منابع وارد کنید. دستور زیر داده ها را از یک فایل CSV وارد می کند :

python

Copy code

df = pd.read_csv(‘path/to/your/file.csv’)

عملیات پایه ای روی DataFrame

پس از ساخت DataFrame می توانید عملیات متنوعی روی آن انجام دهید. در این بخش با برخی از متداول ترین عملیات Pandas آشنا می شویم.

نمایش اطلاعات کلی از DataFrame

با استفاده از متدهای زیر می توانید اطلاعات کلی از DataFrame دریافت کنید :

python

Copy code

df.head()  # نمایش اولین پنج ردیف

df.tail()  # نمایش آخرین پنج ردیف

df.info()  # نمایش اطلاعات کلی DataFrame

df.describe() # نمایش آمار توصیفی DataFrame

انتخاب و فیلتر کردن داده ها

برای انتخاب داده ها در Pandas می توانید از برش ها و شرط ها استفاده کنید.

انتخاب ستون ها

می توانید ستون خاصی از DataFrame را انتخاب کنید :

python

Copy code

df[‘نام’]

فیلتر کردن داده ها بر اساس شرط

می توانید داده ها را بر اساس شرط خاصی فیلتر کنید. مثال زیر افرادی که سنشان بیشتر از ۲۵ است را فیلتر می کند :

python

Copy code

df[df[‘سن’] > ۲۵]

اضافه کردن و حذف ستون ها

اضافه و حذف ستون ها در Pandas بسیار آسان است. برای اضافه کردن ستون جدید کافی است به صورت زیر عمل کنید :

python

Copy code

df[‘نمره’] = [۹۰, ۸۵, ۹۵]

و برای حذف یک ستون از متد drop استفاده می شود :

python

Copy code

df.drop(‘نمره’, axis=۱, inplace=True)

مرتب سازی داده ها

Pandas امکانات مناسبی برای مرتب سازی داده ها دارد. به طور مثال برای مرتب سازی بر اساس سن به صورت صعودی :

python

Copy code

df.sort_values(‘سن’, ascending=True, inplace=True)

گروه بندی داده ها

در بسیاری از مواقع نیاز دارید داده ها را بر اساس یک یا چند ستون گروه بندی کنید. متد groupby این کار را برای شما انجام می دهد :

python

Copy code

df.groupby(‘شهر’).mean()

آموزش کتابخانه پانداس (Pandas) در پایتون

عملیات آماری و تحلیلی

Pandas از توابع زیادی برای محاسبات آماری و تحلیلی پشتیبانی می کند. برخی از این توابع عبارتند از :

  • mean() : میانگین
  • sum() : مجموع
  • count() : تعداد
  • min() : حداقل
  • max() : حداکثر

مثال :

python

Copy code

df[‘سن’].mean()

جدول های محوری (Pivot Table)

جدول های محوری به شما این امکان را می دهند تا داده ها را به شکلی خاص سازماندهی کنید. این ویژگی به خصوص برای تجزیه و تحلیل داده ها بسیار مفید است :

python

Copy code

pivot_table = df.pivot_table(index=’شهر’, values=’سن’, aggfunc=’mean’)

print(pivot_table)

شهر

سن

تهران

۲۵

مشهد

۳۰

شیراز

۲۲

ادغام و ترکیب DataFrame ها

Pandas ابزارهای متنوعی برای ادغام و ترکیب داده ها ارائه می دهد. از متدهای merge و concat می توانید برای ترکیب چند DataFrame استفاده کنید.

python

Copy code

df۱ = pd.DataFrame({‘نام’ : [‘علی’, ‘حسن’], ‘سن’ : [۲۵, ۳۰]})

df۲ = pd.DataFrame({‘نام’ : [‘علی’, ‘حسن’], ‘شهر’ : [‘تهران’, ‘مشهد’]})

 

merged_df = pd.merge(df۱, df۲, on=’نام’)

print(merged_df)

رسم نمودار با پانداس

کتابخانه Pandas با استفاده از Matplotlib می تواند داده ها را به صورت گرافیکی نمایش دهد. به عنوان مثال :

python

Copy code

import matplotlib.pyplot as plt

 

df[‘سن’].plot(kind=’bar’)

plt.show()

نتیجه گیری

کتابخانه Pandas یک ابزار ضروری برای تحلیل داده ها در پایتون است و امکانات متعددی برای مدیریت تغییر و تجزیه وتحلیل داده ها ارائه می دهد. با یادگیری Pandas به راحتی می توانید پروژه های تحلیل داده را مدیریت کنید.

پرسش های متداول

۱. آیا Pandas برای تجزیه و تحلیل داده های حجیم مناسب است؟

بله Pandas برای تجزیه و تحلیل داده های حجیم مناسب است اما اگر داده ها بسیار بزرگ باشند بهتر است از کتابخانه هایی مثل Dask استفاده کنید که امکانات مشابهی دارند.

۲. آیا می توانم از Pandas در کنار سایر کتابخانه ها مثل Numpy و Matplotlib استفاده کنم؟

بله Pandas به خوبی با Numpy و Matplotlib سازگار است و می توانید از این کتابخانه ها در کنار یکدیگر استفاده کنید.

۳. آیا Pandas قابلیت کار با داده های تاریخ و زمان را دارد؟

بله Pandas توابع بسیار خوبی برای کار با داده های تاریخی و زمانی دارد و می توانید به راحتی تاریخ ها را در DataFrame مدیریت کنید.

آیا شما به دنبال کسب اطلاعات بیشتر در مورد "آموزش کتابخانه پانداس (Pandas) در پایتون" هستید؟ با کلیک بر روی تکنولوژی, کسب و کار ایرانی، به دنبال مطالب مرتبط با این موضوع هستید؟ با کلیک بر روی دسته بندی های مرتبط، محتواهای دیگری را کشف کنید. همچنین، ممکن است در این دسته بندی، سریال ها، فیلم ها، کتاب ها و مقالات مفیدی نیز برای شما قرار داشته باشند. بنابراین، همین حالا برای کشف دنیای جذاب و گسترده ی محتواهای مرتبط با "آموزش کتابخانه پانداس (Pandas) در پایتون"، کلیک کنید.