機械学習 - データ配信
データ配信
このチュートリアルの前半で、さまざまな概念を理解するためだけに、例で非常に少量のデータを使用しました。
現実世界では、データセットははるかに大きくなりますが、少なくともプロジェクトの初期段階では、現実世界のデータを収集することは困難な場合があります。
ビッグデータセットを取得するにはどうすればよいですか?
テスト用のビッグデータセットを作成するために、PythonモジュールNumPyを使用します。これには、任意のサイズのランダムデータセットを作成するための多数のメソッドが付属しています。
例
0から5までの250のランダムなfloatを含む配列を作成します。
import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)
ヒストグラム
データセットを視覚化するために、収集したデータでヒストグラムを描くことができます。
PythonモジュールMatplotlibを使用してヒストグラムを描画します。
Matplotlibモジュールについては、Matplotlibチュートリアルで学習してください。
例
ヒストグラムを描く:
import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()
結果:
ヒストグラムの説明
上記の例の配列を使用して、5本のバーでヒストグラムを描画します。
最初のバーは、配列内の値が0から1の間にある数を表します。
2番目のバーは、1と2の間の値の数を表します。
など。
これにより、次の結果が得られます。
- 52個の値が0から1の間にあります。
- 48個の値が1から2の間にあります。
- 49個の値が2から3の間にあります。
- 51個の値が3から4の間にあります。
- 50個の値は4から5の間にあります。
注意:配列の値は乱数であり、ランダムな値が結果に表示されます。
ビッグデータの分布
250個の値を含む配列はそれほど大きいとは見なされませんが、ランダムな値のセットを作成する方法がわかったので、パラメーターを変更することで、必要なだけ大きなデータセットを作成できます。
例
100000個の乱数を含む配列を作成し、100本のバーを含むヒストグラムを使用してそれらを表示します。
import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()
プログラミング学習を加速させる
プログラミングをプロの講師に教えてもらいませんか。