توزیع داده
پیشتر در این آموزش در مثالهای خود با مقدارهای خیلی کم داده کار کردهایم فقط برای اینکه مفاهیم متفاوت را درک کنیم.[۱]
در دنیای واقعی، مجموعه دادهها بسیار بزرگتر هستند، اما ممکن است جمعآوری دادههای واقعی، حداقل در مراحل اولیه پروژه مشکل باشد.
چگونه می توانیم مجموعه داده های بزرگ به دست آوریم؟
برای ایجاد مجموعه دادههای بزرگ برای آزمایش، از ماژول NumPy پایتون استفاده میکنیم، که دارای تعدادی متد برای ایجاد مجموعه دادههای تصادفی با هر اندازه ای است.
مثال
آرایه ای شامل ۲۵۰ عدد اعشاری تصادفی بین ۰ تا ۵ تولید میکند:
1 import numpy
2
3 x = numpy.random.uniform(0.0, 5.0, 250)
4
5 print(x)
هیستوگرام (به انگلیسی: Histogram)
برای تصویر سازی مجموعه داده میتوانیم یک هیستوگرام از دادههایی که جمعآوری کردهایم ایجاد کنیم.
از ماژول Matplotlib پایتون برای طراحی یک هیستوگرام استفاده خواهیم کرد:
مثال
طراحی یک هیستوگرام:
1 import numpy
2 import matplotlib.pyplot as plt
3
4 x = numpy.random.uniform(0.0, 5.0, 250)
5
6 plt.hist(x, 5)
7 plt.show()
توضیح هیستوگرام
از آرایه مثال بالا برای طراحی یک هیستوگرام با ۵ ستون استفاده میکنیم.
اولین ستون نشان دهندهٔ تعداد مقدارهای داخل آرایه بین ۰ و ۱ است.
ستون دوم نشان دهندهٔ مقدارهای بین ۱ و ۲ است.
و غیره.
که نتیجه زیر را به ما میدهد:
- ۵۲ مقدار بین ۰ و ۱
- ۴۸ مقدار بین ۱ و ۲
- ۴۹ مقدار بین ۲ و ۳
- ۵۱ مقدار بین ۳ و ۴
- ۵۰ مقدار بین ۴ و ۵
توزیع ابر داده ها (به انگلیسی: Big Data)
آرایههای شامل ۲۵۰ مقدار خیلی بزرگ در نظر گرفته نمیشود، اما حالا نحوهٔ ایجاد مجموعهٔ مقدارهای تصادفی را میدانید، و بوسیله تغییر پارامترها، میتوانید مجموعه دادهای به اندازه دلخواه خود ایجاد کنید.
مثال
آرایه ای با ۱۰۰۰۰۰ عدد تصادفی تولید میکند و آنها را با استفاده از هیستوگرام با ۱۰۰ ستون نمایش میدهد:
1 import numpy
2 import matplotlib.pyplot as plt
3
4 x = numpy.random.uniform(0.0, 5.0, 100000)
5
6 plt.hist(x, 100)
7 plt.show()
منابع آموزشی