بازگشت به دوره

آموزش رایگان صفر تا صد یادگیری ماشین (Machine Learning) به زبان ساده

0% تکمیل‌شده
0/0 مرحله

در آموزش‌های قبلی، برای درک مفاهیم مختلف از داده‌های خیلی کوچک استفاده کردیم. اما در دنیای واقعی، مجموعه‌داده‌ها (Data Sets) بسیار بزرگ‌تر هستند. البته جمع‌آوری داده‌های واقعی مخصوصاً در ابتدای یک پروژه می‌تواند سخت باشد. 😕

حالا سوال اینجاست: چطور می‌توانیم مجموعه‌داده‌های بزرگ ایجاد کنیم؟ 🤔

ساخت مجموعه‌داده‌های بزرگ 🏗️

برای ایجاد مجموعه‌داده‌های بزرگ جهت تست و تمرین، می‌توانیم از ماژول NumPy در پایتون استفاده کنیم. این ماژول دارای متدهایی برای تولید داده‌های تصادفی در هر اندازه‌ای است.

🎯 مثال: تولید ۲۵۰ عدد تصادفی بین ۰ تا ۵

import numpy

x = numpy.random.uniform(0.0, 5.0, 250)

print(x)

🔹 در این مثال، یک آرایه شامل ۲۵۰ عدد تصادفی تولید کرده‌ایم که مقدار آن‌ها بین ۰ تا ۵ است.

رسم هیستوگرام 📉

برای مشاهده و تحلیل داده‌ها می‌توانیم از هیستوگرام استفاده کنیم. برای رسم هیستوگرام از ماژول Matplotlib استفاده می‌کنیم.

🎯 مثال: رسم یک هیستوگرام با ۵ ستون

import numpy
import matplotlib.pyplot as plt

x = numpy.random.uniform(0.0, 5.0, 250)

plt.hist(x, 5)
plt.show()

✅ خروجی: یک نمودار هیستوگرام که داده‌های ما را در ۵ بازه (Bins) نمایش می‌دهد.

تحلیل هیستوگرام 🔍

در این هیستوگرام:

  • ستون اول: تعداد اعداد بین ۰ تا ۱ را نشان می‌دهد.
  • ستون دوم: تعداد اعداد بین ۱ تا ۲ را نشان می‌دهد.
  • ستون پنجم: تعداد اعداد بین ۴ تا ۵ را نشان می‌دهد.

📌 توجه: از آنجایی که داده‌ها تصادفی هستند، اعداد خروجی در هر بار اجرا ممکن است متفاوت باشند.

مثال خروجی:

بازه عددیتعداد مقادیر
0 تا 152
1 تا 248
2 تا 349
3 تا 451
4 تا 550

مجموعه‌داده‌های خیلی بزرگ 🚀

یک آرایه با ۲۵۰ عدد چندان بزرگ نیست، اما حالا یاد گرفتیم که چطور یک مجموعه‌داده تصادفی ایجاد کنیم. فقط کافی است پارامترها را تغییر دهیم تا به اندازه دلخواه برسیم. 🎯

🎯 مثال: تولید ۱۰۰,۰۰۰ عدد تصادفی و نمایش آن با ۱۰۰ ستون در هیستوگرام

import numpy
import matplotlib.pyplot as plt

x = numpy.random.uniform(0.0, 5.0, 100000)

plt.hist(x, 100)
plt.show()

✅ خروجی: نموداری که توزیع ۱۰۰,۰۰۰ عدد تصادفی را در ۱۰۰ بازه (Bin) نمایش می‌دهد.

چالش برای شما! 🏆

حالا که یاد گرفتید چطور داده‌های تصادفی تولید کنید، این چالش را امتحان کنید: ✅ یک آرایه ۵۰۰ عددی از مقادیر تصادفی بین ۱۰ تا ۲۰ ایجاد کنید و یک هیستوگرام با ۱۰ ستون بکشید.

اگر انجام دادید، خروجی کد خود را بررسی کنید و ببینید داده‌ها چطور توزیع شده‌اند. 🎯


نتیجه‌گیری:

  • از NumPy برای تولید داده‌های تصادفی استفاده می‌کنیم. 🎲
  • با Matplotlib می‌توانیم داده‌ها را به‌صورت هیستوگرام نمایش دهیم. 📊
  • هرچه اندازه داده‌ها و تعداد ستون‌های هیستوگرام بیشتر باشد، تحلیل داده بهتر انجام می‌شود. 🔍

🔥 سوال: اگر به‌جای uniform() از normal() استفاده کنیم، چه اتفاقی می‌افتد؟ 🤔