آموزش رایگان صفر تا صد یادگیری ماشین (Machine Learning) به زبان ساده
-
خوش آمدید به یادگیری ماشین!
-
میانگین، میانه و مد در یادگیری ماشین
-
انحراف معیار (Standard Deviation) در یادگیری ماشین
-
صدک (Percentile) در یادگیری ماشین
-
توزیع دادهها در یادگیری ماشین
-
توزیع نرمال دادهها در یادگیری ماشین
-
نمودار پراکندگی (Scatter Plot) در یادگیری ماشین
-
رگرسیون خطی در یادگیری ماشینی
-
رگرسیون چندجملهای در یادگیری ماشین
-
رگرسیون چندگانه در یادگیری ماشین
-
روش Train/Test در یادگیری ماشین
-
درخت تصمیمگیری در یادگیری ماشین
-
ماتریس سردرگمی (Confusion Matrix) در یادگیری ماشین
-
خوشهبندی سلسلهمراتبی (Hierarchical Clustering) در یادگیری ماشین
-
رگرسیون لجستیک در یادگیری ماشین
-
Grid Search در یادگیری ماشین
-
پردازش دادههای دستهای (Categorical Data) در یادگیری ماشین
-
خوشهبندی K-Means در یادگیری ماشین
-
یادگیری Bootstrap Aggregation (Bagging) در یادگیری ماشین
-
کراس والیدیشن (Cross Validation) در یادگیری ماشین
-
منحنی AUC - ROC در یادگیری ماشین
-
الگوریتم K-Nearest Neighbors (KNN) در یادگیری ماشین
رگرسیون خطی در یادگیری ماشینی
رگرسیون خطی (Linear Regression) یکی از مهمترین الگوریتمهای یادگیری ماشین برای پیشبینی دادهها است. در این مقاله، نحوه کار، مثالهای عملی و کاربردهای آن را به زبان ساده بررسی میکنیم.
📖 فهرست مطالب
- رگرسیون چیست؟ 🤔
- رگرسیون خطی چیست و چگونه کار میکند؟ 📈
- پیادهسازی رگرسیون خطی در پایتون 🐍
- بررسی دقت مدل با مقدار r 🔍
- آیا رگرسیون خطی همیشه بهترین انتخاب است؟ ⚠️
1️⃣ رگرسیون چیست؟ 🤔
رگرسیون (Regression) یک روش آماری است که برای بررسی رابطه بین متغیرها استفاده میشود. به زبان ساده، وقتی بخواهیم بفهمیم که یک متغیر چطور بر متغیر دیگر تأثیر میگذارد، از رگرسیون استفاده میکنیم.
🔹 مثال: فرض کنید میخواهیم بدانیم که سن یک ماشین چگونه بر سرعت آن تأثیر دارد. در اینجا، سن ماشین متغیر مستقل و سرعت آن متغیر وابسته است.
2️⃣ رگرسیون خطی چیست و چگونه کار میکند؟ 📈
رگرسیون خطی (Linear Regression) یکی از سادهترین روشهای رگرسیون است که یک خط مستقیم را از میان دادهها عبور میدهد تا رابطه بین آنها را مدلسازی کند.
💡 فرمول کلی این خط به شکل زیر است:
y=mx+b
🔹 m: شیب خط (Slope)
🔹 b: عرض از مبدأ (Intercept)
🔹 x: مقدار متغیر مستقل (مثلاً سن ماشین)
🔹 y: مقدار پیشبینیشده متغیر وابسته (مثلاً سرعت ماشین)
📌 نکته: اگر نقاط دادهای شما الگوی خطی داشته باشند، این مدل میتواند پیشبینیهای خوبی ارائه دهد.
3️⃣ پیادهسازی رگرسیون خطی در پایتون 🐍
حالا بیایید با یک مثال عملی در پایتون این روش را پیادهسازی کنیم.
📊 1. رسم نمودار پراکندگی (Scatter Plot)
ابتدا یک نمودار پراکندگی از دادهها رسم میکنیم تا ببینیم آیا رابطه خطی بین آنها وجود دارد یا نه.
import matplotlib.pyplot as plt
x = [5,7,8,7,2,17,2,9,4,11,12,9,6]
y = [99,86,87,88,111,86,103,87,94,78,77,85,86]
plt.scatter(x, y)
plt.show()
✅ نتیجه: نقاط دادهای نشان میدهند که رابطهای بین سن ماشین و سرعت آن وجود دارد.
📈 2. رسم خط رگرسیون در پایتون
اکنون از ماژول SciPy برای پیدا کردن معادله خط رگرسیون استفاده میکنیم:
from scipy import stats
import matplotlib.pyplot as plt
x = [5,7,8,7,2,17,2,9,4,11,12,9,6]
y = [99,86,87,88,111,86,103,87,94,78,77,85,86]
slope, intercept, r, p, std_err = stats.linregress(x, y)
def myfunc(x):
return slope * x + intercept
mymodel = list(map(myfunc, x))
plt.scatter(x, y)
plt.plot(x, mymodel, color='red') # خط رگرسیون را رسم میکند
plt.show()
✅ نتیجه: خط قرمزی که روی نمودار قرار گرفته، خط رگرسیون خطی ماست که برای پیشبینی استفاده میشود.
4️⃣ بررسی دقت مدل با مقدار r 🔍
اگر بخواهیم بدانیم که این مدل چقدر دقیق است، مقدار r را بررسی میکنیم. مقدار r نشاندهنده میزان ارتباط بین متغیرها است و مقدار آن بین -1 تا 1 متغیر است.
print(r)
🔹 اگر r نزدیک به 1 یا -1 باشد یعنی رابطه قویای بین دادهها وجود دارد.
🔹 اگر r نزدیک به 0 باشد یعنی رابطه خاصی بین متغیرها وجود ندارد و این مدل خوب کار نمیکند.
✅ مثال: فرض کنید مقدار r = -0.76 باشد. این مقدار نشان میدهد که بین سن و سرعت ماشین یک رابطه منفی وجود دارد (یعنی با افزایش سن، سرعت کاهش پیدا میکند).
5️⃣ آیا رگرسیون خطی همیشه بهترین انتخاب است؟ ⚠️
گاهی اوقات، رگرسیون خطی برای پیشبینی مناسب نیست! بیایید یک مثال ببینیم:
import matplotlib.pyplot as plt
from scipy import stats
x = [89,43,36,36,95,10,66,34,38,20,26,29,48,64,6,5,36,66,72,40]
y = [21,46,3,35,67,95,53,72,58,10,26,34,90,33,38,20,56,2,47,15]
slope, intercept, r, p, std_err = stats.linregress(x, y)
def myfunc(x):
return slope * x + intercept
mymodel = list(map(myfunc, x))
plt.scatter(x, y)
plt.plot(x, mymodel, color='red')
plt.show()
print(r) # بررسی مقدار r
✅ نتیجه: مقدار r ≈ 0.013 نشان میدهد که هیچ رابطهای بین این دادهها وجود ندارد و استفاده از رگرسیون خطی اشتباه است.
🎯 جمعبندی و نکات کلیدی
✔️ رگرسیون خطی یک روش ساده و قدرتمند برای پیشبینی دادهها بر اساس یک رابطه خطی است.
✔️ میتوان از پایتون و کتابخانه SciPy برای اجرای رگرسیون خطی استفاده کرد.
✔️ مقدار r نشاندهنده میزان ارتباط بین دادههاست و اگر خیلی پایین باشد، رگرسیون خطی گزینه مناسبی نیست.
✔️ همیشه قبل از استفاده از این روش، نمودار پراکندگی را بررسی کنید تا ببینید آیا دادهها الگوی خطی دارند یا خیر.
🔥 حالا نوبت شماست!
✅ آیا تا به حال از رگرسیون خطی در پروژههای خود استفاده کردهاید؟
✅ نظرتان درباره این روش چیست؟