TECH I.S.

機械学習 - データ配信


データ配信

このチュートリアルの前半で、さまざまな概念を理解するためだけに、例で非常に少量のデータを使用しました。

現実世界では、データセットははるかに大きくなりますが、少なくともプロジェクトの初期段階では、現実世界のデータを収集することは困難な場合があります。

ビッグデータセットを取得するにはどうすればよいですか?

テスト用のビッグデータセットを作成するために、PythonモジュールNumPyを使用します。これには、任意のサイズのランダムデータセットを作成するための多数のメソッドが付属しています。

0から5までの250のランダムなfloatを含む配列を作成します。

import numpy x = numpy.random.uniform(0.0, 5.0, 250) print(x)

自分で試してみる»


ヒストグラム

データセットを視覚化するために、収集したデータでヒストグラムを描くことができます。

PythonモジュールMatplotlibを使用してヒストグラムを描画します。

Matplotlibモジュールについては、Matplotlibチュートリアルで学習してください。

ヒストグラムを描く:

import numpy import matplotlib.pyplot as plt x = numpy.random.uniform(0.0, 5.0, 250) plt.hist(x, 5) plt.show()

結果:


自分で試してみる»

ヒストグラムの説明

上記の例の配列を使用して、5本のバーでヒストグラムを描画します。

最初のバーは、配列内の値が0から1の間にある数を表します。

2番目のバーは、1と2の間の値の数を表します。

など。

これにより、次の結果が得られます。

  • 52個の値が0から1の間にあります。
  • 48個の値が1から2の間にあります。
  • 49個の値が2から3の間にあります。
  • 51個の値が3から4の間にあります。
  • 50個の値は4から5の間にあります。

注意:配列の値は乱数であり、ランダムな値が結果に表示されます。

ビッグデータの分布

250個の値を含む配列はそれほど大きいとは見なされませんが、ランダムな値のセットを作成する方法がわかったので、パラメーターを変更することで、必要なだけ大きなデータセットを作成できます。

100000個の乱数を含む配列を作成し、100本のバーを含むヒストグラムを使用してそれらを表示します。

import numpy import matplotlib.pyplot as plt x = numpy.random.uniform(0.0, 5.0, 100000) plt.hist(x, 100) plt.show()

自分で試してみる»



プログラミング学習を加速させる

プログラミングをプロの講師に教えてもらいませんか。

テックアイエスのプログラミングスクールは初心者も大歓迎です。年齢制限もありません。転職・副業に強く、挫折させない手厚いサポートで稼ぐ力を身につけましょう!

スクールの詳細