آموزش رایگان صفر تا صد یادگیری ماشین (Machine Learning) به زبان ساده
-
خوش آمدید به یادگیری ماشین!
-
میانگین، میانه و مد در یادگیری ماشین
-
انحراف معیار (Standard Deviation) در یادگیری ماشین
-
صدک (Percentile) در یادگیری ماشین
-
توزیع دادهها در یادگیری ماشین
-
توزیع نرمال دادهها در یادگیری ماشین
-
نمودار پراکندگی (Scatter Plot) در یادگیری ماشین
-
رگرسیون خطی در یادگیری ماشینی
-
رگرسیون چندجملهای در یادگیری ماشین
-
رگرسیون چندگانه در یادگیری ماشین
-
روش Train/Test در یادگیری ماشین
-
درخت تصمیمگیری در یادگیری ماشین
-
ماتریس سردرگمی (Confusion Matrix) در یادگیری ماشین
-
خوشهبندی سلسلهمراتبی (Hierarchical Clustering) در یادگیری ماشین
-
رگرسیون لجستیک در یادگیری ماشین
-
Grid Search در یادگیری ماشین
-
پردازش دادههای دستهای (Categorical Data) در یادگیری ماشین
-
خوشهبندی K-Means در یادگیری ماشین
-
یادگیری Bootstrap Aggregation (Bagging) در یادگیری ماشین
-
کراس والیدیشن (Cross Validation) در یادگیری ماشین
-
منحنی AUC - ROC در یادگیری ماشین
-
الگوریتم K-Nearest Neighbors (KNN) در یادگیری ماشین
توزیع دادهها در یادگیری ماشین
در آموزشهای قبلی، برای درک مفاهیم مختلف از دادههای خیلی کوچک استفاده کردیم. اما در دنیای واقعی، مجموعهدادهها (Data Sets) بسیار بزرگتر هستند. البته جمعآوری دادههای واقعی مخصوصاً در ابتدای یک پروژه میتواند سخت باشد. 😕
حالا سوال اینجاست: چطور میتوانیم مجموعهدادههای بزرگ ایجاد کنیم؟ 🤔
ساخت مجموعهدادههای بزرگ 🏗️
برای ایجاد مجموعهدادههای بزرگ جهت تست و تمرین، میتوانیم از ماژول NumPy در پایتون استفاده کنیم. این ماژول دارای متدهایی برای تولید دادههای تصادفی در هر اندازهای است.
🎯 مثال: تولید ۲۵۰ عدد تصادفی بین ۰ تا ۵
import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)
🔹 در این مثال، یک آرایه شامل ۲۵۰ عدد تصادفی تولید کردهایم که مقدار آنها بین ۰ تا ۵ است.
رسم هیستوگرام 📉
برای مشاهده و تحلیل دادهها میتوانیم از هیستوگرام استفاده کنیم. برای رسم هیستوگرام از ماژول Matplotlib استفاده میکنیم.
🎯 مثال: رسم یک هیستوگرام با ۵ ستون
import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()
✅ خروجی: یک نمودار هیستوگرام که دادههای ما را در ۵ بازه (Bins) نمایش میدهد.
تحلیل هیستوگرام 🔍
در این هیستوگرام:
- ستون اول: تعداد اعداد بین ۰ تا ۱ را نشان میدهد.
- ستون دوم: تعداد اعداد بین ۱ تا ۲ را نشان میدهد.
- …
- ستون پنجم: تعداد اعداد بین ۴ تا ۵ را نشان میدهد.
📌 توجه: از آنجایی که دادهها تصادفی هستند، اعداد خروجی در هر بار اجرا ممکن است متفاوت باشند.
مثال خروجی:
بازه عددی | تعداد مقادیر |
---|---|
0 تا 1 | 52 |
1 تا 2 | 48 |
2 تا 3 | 49 |
3 تا 4 | 51 |
4 تا 5 | 50 |
مجموعهدادههای خیلی بزرگ 🚀
یک آرایه با ۲۵۰ عدد چندان بزرگ نیست، اما حالا یاد گرفتیم که چطور یک مجموعهداده تصادفی ایجاد کنیم. فقط کافی است پارامترها را تغییر دهیم تا به اندازه دلخواه برسیم. 🎯
🎯 مثال: تولید ۱۰۰,۰۰۰ عدد تصادفی و نمایش آن با ۱۰۰ ستون در هیستوگرام
import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()
✅ خروجی: نموداری که توزیع ۱۰۰,۰۰۰ عدد تصادفی را در ۱۰۰ بازه (Bin) نمایش میدهد.
چالش برای شما! 🏆
حالا که یاد گرفتید چطور دادههای تصادفی تولید کنید، این چالش را امتحان کنید: ✅ یک آرایه ۵۰۰ عددی از مقادیر تصادفی بین ۱۰ تا ۲۰ ایجاد کنید و یک هیستوگرام با ۱۰ ستون بکشید.
اگر انجام دادید، خروجی کد خود را بررسی کنید و ببینید دادهها چطور توزیع شدهاند. 🎯
نتیجهگیری:
- از NumPy برای تولید دادههای تصادفی استفاده میکنیم. 🎲
- با Matplotlib میتوانیم دادهها را بهصورت هیستوگرام نمایش دهیم. 📊
- هرچه اندازه دادهها و تعداد ستونهای هیستوگرام بیشتر باشد، تحلیل داده بهتر انجام میشود. 🔍
🔥 سوال: اگر بهجای uniform()
از normal()
استفاده کنیم، چه اتفاقی میافتد؟ 🤔