توزیع داده

از ویکی‌کد، دانشنامهٔ برنامه‌نویسی
پرش به ناوبری پرش به جستجو
Main Page Tutorial
Python-menu.png
موارد آموزشی
مدیریت فایل
یادگیری ماشین
۱شروع کار
۲میانگین، میانه، مُد
۳انحراف استاندارد
۴صدک
۵توزیع داده
۶توزیع داده نرمال
۷نمودار پراکندگی
۸رگرسیون خطی
۹رگرسیون چند جمله‌ای
۱۰رگرسیون چندگانه
۱۱مقیاس
۱۲آموزش / تست
۱۳درخت تصمیم
MySQL در پایتون
MongoDB در پایتون
مرجع پایتون
مرجع ماژول
چگونه در پایتون؟
مثال‌های پایتون

پیش‌تر در این آموزش در مثال‌های خود با مقدارهای خیلی کم داده کار کرده‌ایم فقط برای اینکه مفاهیم متفاوت را درک کنیم.[۱]

در دنیای واقعی، مجموعه داده‌ها بسیار بزرگتر هستند، اما ممکن است جمع‌آوری داده‌های واقعی، حداقل در مراحل اولیه پروژه مشکل باشد.

چگونه می توانیم مجموعه داده های بزرگ به دست آوریم؟

برای ایجاد مجموعه داده‌های بزرگ برای آزمایش، از ماژول NumPy پایتون استفاده می‌کنیم، که دارای تعدادی متد برای ایجاد مجموعه داده‌های تصادفی با هر اندازه ای است.

مثال

آرایه ای شامل ۲۵۰ عدد اعشاری تصادفی بین ۰ تا ۵ تولید می‌کند:

1 import numpy
2 
3 x = numpy.random.uniform(0.0, 5.0, 250)
4 
5 print(x)


مشاهدهٔ نتیجه


هیستوگرام (به انگلیسی: Histogram)

برای تصویر سازی مجموعه داده می‌توانیم یک هیستوگرام از داده‌هایی که جمع‌آوری کرده‌ایم ایجاد کنیم.

از ماژول Matplotlib پایتون برای طراحی یک هیستوگرام استفاده خواهیم کرد:

مثال

طراحی یک هیستوگرام:

1 import numpy
2 import matplotlib.pyplot as plt
3 
4 x = numpy.random.uniform(0.0, 5.0, 250)
5 
6 plt.hist(x, 5)
7 plt.show()


مشاهدهٔ نتیجه


توضیح هیستوگرام

از آرایه مثال بالا برای طراحی یک هیستوگرام با ۵ ستون استفاده می‌کنیم.

اولین ستون نشان دهندهٔ تعداد مقدارهای داخل آرایه بین ۰ و ۱ است.

ستون دوم نشان دهندهٔ مقدارهای بین ۱ و ۲ است.

و غیره.

که نتیجه زیر را به ما می‌دهد:

  • ۵۲ مقدار بین ۰ و ۱
  • ۴۸ مقدار بین ۱ و ۲
  • ۴۹ مقدار بین ۲ و ۳
  • ۵۱ مقدار بین ۳ و ۴
  • ۵۰ مقدار بین ۴ و ۵
توجه: مقدارهای آرایه تصادفی هستند و در کامپیوتر شما دقیقاً این نتیجه را نشان نخواهند داد.

توزیع ابر داده ها (به انگلیسی: Big Data)

آرایه‌های شامل ۲۵۰ مقدار خیلی بزرگ در نظر گرفته نمی‌شود، اما حالا نحوهٔ ایجاد مجموعهٔ مقدارهای تصادفی را می‌دانید، و بوسیله تغییر پارامترها، می‌توانید مجموعه داده‌ای به اندازه دلخواه خود ایجاد کنید.

مثال

آرایه ای با ۱۰۰۰۰۰ عدد تصادفی تولید می‌کند و آنها را با استفاده از هیستوگرام با ۱۰۰ ستون نمایش می‌دهد:

1 import numpy
2 import matplotlib.pyplot as plt
3 
4 x = numpy.random.uniform(0.0, 5.0, 100000)
5 
6 plt.hist(x, 100)
7 plt.show()


مشاهدهٔ نتیجه



منابع آموزشی