統計的仮説検定とは
記事の監修者
1000万PVを超える新規メディアの立ち上げを開発責任者として行う。株式会社ウィルゲートを退社後、民泊の運用代行業者のTwistを設立し上場企業に売却。2016年株式会社Market Drive(現テックアイエス)を設立し、取締役副社長に就任。200万ダウンロードを超えるアプリを開発。現在はプログラミングスクールのカリキュラム制作も担当。現場でのエンジニアリングと経営の両面を支えている。
今回は、統計的仮説検定について説明していきます。
統計的仮説検定 とは、母集団分布の母数に関する仮説を標本から検証する統計学的方法の一つといわれています。
簡単に説明すると、母集団から抽出されたデータが仮説に対し、正しいのか否かを統計学的に検証することを指します。
一定の母集団に対して抽出された統計的な証明
例えば内容量50gと記載されたポテトチップスがあったとします。
このポテトチップスのすべての商品が50gジャストの重さになるのはまれですよね。
連続する数値ですので、49gだったり50.1gであったりある程度は数値がばらばらになる可能性があるからです。
統計的仮説検定は、このようなケースで実際に母集団から抽出されたポテトチップスの内容量のデータに対して、統計的に50gになっているといえるかどうかということを証明することができるのです。
統計を測る時には仮説を設定する
その際に仮説を設定するのですが、 A=Bである帰無仮説と、A=Bでない対立仮説を設定することになります。
この場合ですと
帰無仮説=ポテトチップス袋の中身の平均は50gである
対立仮説=ポテトチップス袋の中身の平均は50gではない
となります。
それでは実際のデータを使って統計的仮説検定を行っていきましょう。
まずは必要なモジュールをインポートします。
統計を取るためのデータを収集
次に先ほどの例で挙げたポテトチップスのデータを作っていきましょう。
まずは平均を見ていきましょう!
統計的に優位になるのは「2」以上
出力結果は56.9となります。
内容量が50gであるポテトチップスに対して、この平均の誤差が統計的に優位のある数字であるのかどうかという点を統計的に証明していくことになります。
具体的にはt値を算出し、そのt値が基本的には2以上の数値になっていれば統計的に優位の数値であることになります。
ここでは「ポテトチップス袋の中身の平均は50gである」という帰無仮説が棄却され、対立仮説である「ポテトチップス袋の中身の平均は50gでない」という対立仮説が採択されることになります。
t値算出の式は以下になります。
上記の式をプログラムに直します。
上記で算出されたt値を見ると3.5になります。
3.5は2以上ですので統計的に意味のある数値になり、今回のケースでは帰無仮説が棄却され対立仮説が採択されることになります。
つまり母集団から算出されたデータに対して、ポテトチップスが50gの内包量であると統計的に言えないという結果になります。
このようにデータ分析を行う上では、その数値が意味があるのかどうかということを統計的観点から証明しなければなりません。
このような検定は様々な種類がありますので、用途に応じて使い分けを行っていきましょう。
全国どこにいても学べる!超優良のプログラミングスクールまとめました【国内完全網羅】現役エンジニアが厳選したおすすめのプログラミングスクール
自分の住んでるエリアでプログラミングスクールを探したい⭐️
エリア別で、おすすめのプログラミングスクールをまとめました。
ぜひ参考にしてみてくださいね。
北海道 / 東北
関東
群馬 / 栃木 / 埼玉 / 茨城 / 東京 / 千葉 / 神奈川
中部
福井 / 石川 / 岐阜 / 愛知 / 富山 / 長野 / 山梨 / 静岡 / 新潟
近畿
兵庫 / 京都 / 大阪 / 滋賀 / 奈良 / 三重 / 和歌山