機械学習
機械学習とは、コンピューターにデータと統計の研究から学習させることです。
機械学習は、人工知能(AI)の方向への一歩です。
機械学習は、データを分析し、結果の予測を学習するプログラムです。
どこから始めれば?
このチュートリアルでは、数学に戻って統計を学び、データセットに基づいて重要な数値を計算する方法を学びます。
また、必要な答えを得るためにさまざまなPythonモジュールを使用する方法も学びます。
そして、学んだことに基づいて結果を予測できる関数を作成する方法を学びます。
データセット
コンピューターの考えでは、データセットとはデータの集まりです。配列から完全なデータベースまで何でも構いません。
配列の例:
[99,86,87,88,111,86,103,87,94,78,77,85,86]
データベースの例:
Carname | Color | Age | Speed | AutoPass |
BMW | 赤 | 5 | 99 | Y |
ボルボ | 黒 | 7 | 86 | Y |
VW | グレー | 8 | 87 | N |
VW | 白 | 7 | 88 | Y |
フォード | 白 | 2 | 111 | Y |
VW | 白 | 17 | 86 | Y |
テスラ | 赤 | 2 | 103 | Y |
BMW | 黒 | 9 | 87 | Y |
ボルボ | グレー | 4 | 94 | N |
フォード | 白 | 11 | 78 | N |
トヨタ | グレー | 12 | 77 | N |
VW | 白 | 9 | 85 | N |
トヨタ | 青 | 6 | 86 | Y |
配列を見ると、平均値はおそらく80か90程度であると推測でき、最高値と最低値を決定することもできますが、他に何ができるでしょうか?
データベースを見ると、最も人気のある色は白で、最も古い車は17年であることがわかります。しかし、他の値を見るだけで、車にオートパスが搭載されているかどうかを予測できたらどうでしょうか?
それが機械学習の目的です。データを分析して結果を予測する!
機械学習では、非常に大きなデータセットを扱うのが一般的です。このチュートリアルでは、機械学習のさまざまな概念をできるだけ簡単に理解できるようにし、理解しやすい小さなデータセットを使用します。
データ型
データを分析するには、扱っているデータの種類を知ることが重要です。
データ型は、次の3つの主なカテゴリに分類できます。
- Numerical
- Categorical
- Ordinal
Numericalデータは数値であり、次の2 つの数値カテゴリに分けることができます。
離散データ
- 整数に限定された数値。例:通り過ぎる車の番号
連続データ
- 無限の価値を持つ数字。例:商品の価格、または商品のサイズ
カテゴリーデータは、相互に比較することができない値です。例:色の値、または任意のYes/No値。
Ordinalデータはカテゴリーデータに似ていますが、相互に測定できます。例:AがBよりも優れている学校の成績など。
データソースのデータ型を知ることで、データを分析するときにどのような手法を使用すればよいかを知ることができます。
次の章では、統計とデータの分析について詳しく学びます。
プログラミング学習を加速させる
プログラミングをプロの講師に教えてもらいませんか。