آموزش رایگان صفر تا صد یادگیری ماشین (Machine Learning) به زبان ساده
-
خوش آمدید به یادگیری ماشین!
-
میانگین، میانه و مد در یادگیری ماشین
-
انحراف معیار (Standard Deviation) در یادگیری ماشین
-
صدک (Percentile) در یادگیری ماشین
-
توزیع دادهها در یادگیری ماشین
-
توزیع نرمال دادهها در یادگیری ماشین
-
نمودار پراکندگی (Scatter Plot) در یادگیری ماشین
-
رگرسیون خطی در یادگیری ماشینی
-
رگرسیون چندجملهای در یادگیری ماشین
-
رگرسیون چندگانه در یادگیری ماشین
-
روش Train/Test در یادگیری ماشین
-
درخت تصمیمگیری در یادگیری ماشین
-
ماتریس سردرگمی (Confusion Matrix) در یادگیری ماشین
-
خوشهبندی سلسلهمراتبی (Hierarchical Clustering) در یادگیری ماشین
-
رگرسیون لجستیک در یادگیری ماشین
-
Grid Search در یادگیری ماشین
-
پردازش دادههای دستهای (Categorical Data) در یادگیری ماشین
-
خوشهبندی K-Means در یادگیری ماشین
-
یادگیری Bootstrap Aggregation (Bagging) در یادگیری ماشین
-
کراس والیدیشن (Cross Validation) در یادگیری ماشین
-
منحنی AUC - ROC در یادگیری ماشین
-
الگوریتم K-Nearest Neighbors (KNN) در یادگیری ماشین
روش Train/Test در یادگیری ماشین
آیا میخواهید مدل یادگیری ماشین خود را به درستی ارزیابی کنید؟ 🤔 روش Train/Test یکی از بهترین روشها برای بررسی دقت مدل است. در این مقاله، به زبان ساده یاد میگیرید که چگونه دادهها را به مجموعههای آموزش و تست تقسیم کنید و میزان دقت مدل خود را بسنجید.
📌 فهرست مطالب
- روش Train/Test چیست؟
- تقسیم دادهها به مجموعه آموزش و تست
- آموزش و تست مدل با استفاده از پایتون
- محاسبه دقت مدل با R-squared
- پیشبینی مقادیر جدید
📢 روش Train/Test چیست؟
Train/Test یک روش رایج در یادگیری ماشین است که برای ارزیابی دقت مدل استفاده میشود. این روش شامل دو مرحله است:
✅ آموزش مدل (Train): مدل را با استفاده از یک بخش از دادهها آموزش میدهیم.
✅ تست مدل (Test): دقت مدل را روی دادههای جدید بررسی میکنیم.
🔹 معمولاً دادهها به دو بخش تقسیم میشوند:
🔸 ۸۰٪ برای آموزش
🔸 ۲۰٪ برای تست
چرا باید دادهها را به دو بخش تقسیم کنیم؟
اگر مدل را روی همان دادههایی که برای آموزش استفاده شده تست کنیم، احتمال دارد که نتایج بهطور مصنوعی خوب به نظر برسند. اما با تست روی دادههای جدید، میتوانیم بفهمیم که مدل واقعاً چقدر خوب کار میکند.
📢 تقسیم دادهها به مجموعه آموزش و تست
بیایید با یک مثال واقعی جلو برویم. فرض کنید میخواهیم بررسی کنیم که مشتریان یک فروشگاه، چقدر زمان قبل از خرید در فروشگاه سپری میکنند و چقدر هزینه میکنند.
📌 کد زیر یک مجموعه داده تصادفی شامل ۱۰۰ مشتری ایجاد میکند:
import numpy
import matplotlib.pyplot as plt
numpy.random.seed(2)
x = numpy.random.normal(3, 1, 100) # تعداد دقایق قبل از خرید
y = numpy.random.normal(150, 40, 100) / x # مقدار هزینه شده
plt.scatter(x, y)
plt.show()
🔹 محور X: تعداد دقایقی که مشتری قبل از خرید در فروشگاه میماند.
🔹 محور Y: مقدار پولی که مشتری خرج میکند.
✅ حالا دادهها را به دو بخش تقسیم میکنیم:
train_x = x[:80] # ۸۰٪ دادهها برای آموزش
train_y = y[:80]
test_x = x[80:] # ۲۰٪ دادهها برای تست
test_y = y[80:]
📢 آموزش و تست مدل با استفاده از پایتون
حالا که دادهها را آماده کردیم، بیایید یک مدل رگرسیون چندجملهای (Polynomial Regression) روی دادهها اعمال کنیم.
📌 کد زیر مدل را ایجاد و روی دادههای آموزش اجرا میکند:
mymodel = numpy.poly1d(numpy.polyfit(train_x, train_y, 4))
myline = numpy.linspace(0, 6, 100)
plt.scatter(train_x, train_y)
plt.plot(myline, mymodel(myline))
plt.show()
🔹 این نمودار یک خط رگرسیون چندجملهای را روی دادههای آموزش نمایش میدهد.
📢 محاسبه دقت مدل با R-squared <a id=”r2-score”></a>
R-squared (یا R²) نشان میدهد که مدل چقدر خوب دادهها را توضیح میدهد. مقدار R² بین ۰ تا ۱ است:
✅ ۰: مدل هیچ ارتباطی با دادهها ندارد.
✅ ۱: مدل کاملاً دادهها را توضیح میدهد.
📌 کد زیر مقدار R² را برای دادههای آموزش محاسبه میکند:
from sklearn.metrics import r2_score
r2 = r2_score(train_y, mymodel(train_x))
print(r2) # مقدار R²
🔹 اگر مقدار R² بالا باشد (مثلاً ۰.۸)، یعنی مدل خوبی داریم.
📌 حالا مقدار R² را روی دادههای تست حساب کنیم:
r2 = r2_score(test_y, mymodel(test_x))
print(r2)
🔹 اگر مقدار R² روی دادههای تست هم خوب باشد، یعنی مدل ما بهدرستی آموزش دیده است و Overfitting ندارد.
📢 پیشبینی مقادیر جدید
حالا که مدل را بررسی کردیم، بیایید مقدار هزینهای که یک مشتری خرج میکند را بر اساس مدت حضورش در فروشگاه پیشبینی کنیم.
📌 مثلاً اگر مشتری ۵ دقیقه در فروشگاه بماند، چقدر خرج خواهد کرد؟
print(mymodel(5))
🔹 خروجی: مدل پیشبینی میکند که مشتری ۲۲.۸۸ دلار خرج خواهد کرد.
📌 جمعبندی
✅ روش Train/Test کمک میکند تا دقت مدل یادگیری ماشین را بررسی کنیم.
✅ تقسیم دادهها به ۸۰٪ آموزش و ۲۰٪ تست استاندارد است.
✅ R-squared به ما نشان میدهد که مدل چقدر خوب دادهها را توضیح میدهد.
✅ اگر مقدار R² روی دادههای تست و آموزش مشابه و بالا باشد، مدل ما خوب کار میکند.
✅ با استفاده از مدل، میتوان پیشبینیهایی برای آینده انجام داد.
🔥 آیا تا به حال از روش Train/Test در پروژههای خود استفاده کردهاید؟ نظرات خود را با ما در میان بگذارید! 🚀