機械学習 - 標準偏差
標準偏差とは?
標準偏差は、値がどのように広がっているかを表す数値です。
標準偏差が低いということは、ほとんどの数値が平均(平均)値に近いことを意味します。
標準偏差が高いということは、値がより広い範囲に広がっていることを意味します。
例: 今回は7台の車の速度を登録しました。
speed = [86,87,88,86,87,85,86]
標準偏差は次のとおりです。
0.9
ほとんどの値が平均値86.4から0.9の範囲内にあることを意味します。
より広い範囲の数値の選択で同じことをしてみましょう:
speed = [32,111,138,28,59,77,97]
標準偏差は次のとおりです。
37.85
ほとんどの値が平均値77.4から37.85の範囲内にあることを意味します。
ご覧のとおり、標準偏差が高いほど、値がより広い範囲に広がっていることを示しています。
NumPyモジュールには、標準偏差を計算するメソッドがあります。
例
NumPyのstd()
メソッドを使用して標準偏差を見つけます。
データアナリストのようにPython でデータをフィルター処理する方法を学ぶ
専門家による段階的なガイダンスで実践的なトレーニングセッションをお試しください。 Courseraと共同で作成されたガイド付きプロジェクトを今すぐお試しください!分散
分散は、値がどのように広がっているかを示す別の数値です。
実際、分散の平方根を取ると、標準偏差が得られます。
逆に、標準偏差にそれ自体を掛けると、分散が得られます。
分散を計算するには、次のようにする必要があります。
1. 平均を求める:
(32+111+138+28+59+77+97) / 7 = 77.4
2. 各値について: 平均値との差を見つけます:
32 - 77.4 = -45.4
111 - 77.4 = 33.6
138 - 77.4 = 60.6
28 - 77.4 = -49.4
59 - 77.4 = -18.4
77 - 77.4 = -0.4
97 - 77.4 = 19.6
3. それぞれの差について: 二乗値を見つけます:
(-45.4)2 = 2061.16
(33.6)2 = 1128.96
(60.6)2 = 3672.36
(-49.4)2 = 2440.36
(-18.4)2 = 338.56
(-0.4)2 = 0.16
(19.6)2 = 384.16
4. 分散は、これらの平方差の平均数です。
(2061.16+1128.96+3672.36+2440.36+338.56+0.16+384.16) / 7 = 1432.2
幸いなことに、NumPyには分散を計算するメソッドがあります。
例
NumPyのvar()
メソッドを使用して分散を見つけます。
標準偏差
学習したように、標準偏差を求める式は分散の平方根です。
√1432.25 = 37.85
または、前の例のように、NumPyを使用して標準偏差を計算します。
例
NumPyのstd()
メソッドを使用して標準偏差を見つけます。
シンボル
標準偏差は、多くの場合、シグマ記号:σで表されます。
分散は、多くの場合、シグマ2乗記号:σ2で表されます。
章のまとめ
標準偏差と分散は、機械学習でよく使用される用語であるため、それらを取得する方法とその背後にある概念を理解することが重要です。
プログラミング学習を加速させる
プログラミングをプロの講師に教えてもらいませんか。