統計学の代表的な手法として検定があります。
統計学を学ぶ上で最初に躓く手法だと思います。考え方が特殊ですので。
ですが、それ以上に人気(?)の手法でもあります。
人気の理由は白黒はっきりつくところだと思います。
検定のプロセスに従えば、平均値や分散の間に誤差以上の差があるという事がはっきりしますからね。
私のチャンネルでも、検定に関する質問が非常に多いです。
しかしながらここ最近、検定をあまり過信しすぎると火傷をするというお話が多く聞かれるようになってきました。
今回は、便利そうに見えるけど実は気を付けなければいけない、検定の罠について解説いたします。
こちらの本では更に詳しく解説されています。本記事で気になった方はぜひ手に取ってみてはいかがでしょうか。
検定って何?
検定の考え方
そもそも検定とは何なんでしょうか。詳しくは以下の動画や記事を参照してほしいですが、
再生リスト:検定理解のアウトライン
有意差検定のやり方 【検定を分かりやすく説明します】
簡単に説明させていただきます。
検定の目的は統計的な有意差を確認する事です。有意差とは意味の有る差を意味し、誤差以上に2つの値に差がある場合を指します。
例を出します。こちらのグラフを見て、あなたは2つの値に差があるかどうか判断出来ますか?
Aの方が大きいと答えた方。本当にそうですか?
2の差は大した差じゃないんじゃないのと答えた方。本当にそうですか?
答えは分からないです。なぜならこのグラフには誤差の情報が含まれていないからです。
こちらのグラフをご覧ください。
左のグラフは誤差が非常に大きいです。このばらつきの中では10と8の差なんて殆ど意味がないでしょう。
対して右のグラフはどうでしょうか。この程度のばらつきであればAの方が明らかにBより大きいと言って良いと思いませんか?
つまり平均値(ひいては統計量)の差の大きさというものは誤差があって初めて有意か否かを判断出来るのです。
そしてこの誤差の情報をものさしにして、平均値や分散などの差を調べる手法が検定になります。
検定のプロセス
最も多用されるt検定と呼ばれる手法を例に検定のプロセスを解説します。
まずは帰無仮説と対立仮説を立てます。
帰無仮説:μ0=μ1
対立仮説:μ0≠μ1
帰無仮説とは捨て去る前提の仮説(無に帰す)です。対立仮説はその帰無仮説に対立させる仮説です。
帰無仮説は基本的に等しいという状態を設定します。等しいというシチュエーションは一つしかありません。
等しくないシチュエーションは1≠2や1≠1.1など無数に存在しますが1=1は1パターンしかないからです。
この一つしかないシチュエーションを否定する形で、等しくないという事を積極的に主張するわけです。
この考え方を受け入れられれば、検定の理解はスムーズにいきます。
次に有意水準というものを設定します。検定というのは分布の一定の範囲内に値が収まればその値と分布は等しいという風に考えます。
一般的にこの有意水準αというものは5%と設定します。上記の分布でいうと2.23以上と-2.23以下が5%から外れる範囲です。その内側ならμ1はμ0と等しいと判断しましょうとなるのです。
次に検定統計量を算出します。以下の式で計算される値です。
$$t=\frac{μ1-μ0}{σ/\sqrt{n}}$$
μ0とμ1がσ/√nの何倍離れているかを表しています。σ/√nですがこれは平均値のばらつきを表しています。詳しくはこちら
大数の法則と中心極限定理とは【正規分布かどうか考えなくてもOK】
この検定統計量が例えば先ほどの2.23より大きかったりした場合、μ0とμ1が同じ分布の値である確率は5%以下であるとなり、帰無仮説が成立する確率が有意水準αをした待っているので対立仮説を採択する。
つまりμ0とμ1には有意差があると判断する。これが検定の主なプロセスです。
検定の強味は、有意水準を基準に機械的に有意差の有無を判断することが出来る点です。
少なくともその点が人気を担っているポイントなんですが、本当にその判断は正しいのでしょうか。
検定の問題点
サンプルサイズで結果が左右される。
序文でも述べましたように、検定の使用は最近控えたほうが良いとされています。
その理由は検定統計量の式にあります。
$$t=\frac{μ1-μ0}{σ/\sqrt{n}}$$
この式のnの部分です。t値は大きくなればなるほど有意差がある言いやすくなります。逆もしかりです。
この式のメカニズム上、サンプルサイズが大きくなればなるほどt値は大きくなります。つまり分析者が有意差を出したいのであればサンプルサイズを過剰に多く採取していればいくらでも有意差を出すことが出来るのです。
データ分析においてサンプルサイズを増やすことで求められるのは、分析の精度であるはずで元々存在する結論が変わってほしいわけではありません。
これを解決するためには検定を実施する前に適切なサンプルサイズを把握しておく必要があります。
その適切なサンプルサイズを決める方法として検出力と効果量の活用があります。
簡単に説明しますと、あらかじめ有意と判断するべき平均値の差を決めておきます。
その平均値の差とデータのばらつきの比を効果量として、そこから必要なサンプルサイズを割り出すのです。
「平均値の差を機械的に判断したいのに、平均値の差を割り出さないといけないっておかしくない?」
と思われるでしょう。
検定が示すのはあくまで統計的な意味での有意差です。この有意差が本当にデータの活用における有意差と一致するとは実は限らないのです。
例えば懐中電灯の明るさで考えてみましょう。
電灯AとBの明るさに10の差があるとします。ばらつきが0.1という場合2つの電灯の間には統計的な観点で言えば有意な差があると言えるでしょう。
しかしながら、電灯の明るさを人間が識別できるレベルが100の差がついたときと言ったらどうしますか?
電灯AとBの10の差に意味があると言えるでしょうか。
このように統計的な有意差=実用的な有意差があるとは限らない訳です。
効果量はこの実用的な有意差はどの程度かを、あらかじめ設定した数値になります。
この実用的な有意差というものは、分析対象によって異なり機械的に決定することは出来ません。つまり先に述べた検定を使えば機械的に判断出来るというのはそもそもズレた観点であると言えます。
世の中に存在する差のもつ意味合いは様々です。検定ではあくまで誤差というものさしで差の分析をしているに過ぎません。
誤った判断をしないためには、統計的だけでなく様々な観点で差を観察する必要があるという訳です。
まとめ
検定は統計学において多用される手法です。一見すると機械的に差の有無を判断出来そうだからです。
しかしながら、サンプルサイズを適切に決定しなければ、有意差がないものにも有意差があると誤った判断をしてしまう可能性があります。
検定を正しく理解し、誤った判断をしないようにしましょう。
コンテンツ紹介
昨今機械学習やディープラーニングなど、データを扱うための知識の重要度は日々増していっています。
そんな最先端のスキルを使いこなすには、土台となる統計学の知識が必要不可欠です。
しかしながら、統計学は本で読んでも何とか理論は理解できてもそこからどのように実務に活かしたら良いのか分からない。そんな机上と現実のギャップが凄まじい学問です。
そんな机上と現実のギャップを埋めるために、私は当サイトをはじめ様々なコンテンツを展開しています。
youtubeでは登録者1万人の統計学のチャンネルを運用しています。
動画投稿だけでなく、週2回のコメントに来た質問への回答配信も行っているので気になる方はどしどし質問をお寄せください。
youtubeでは無料動画だけでなく、有料のメンバーシップ限定動画も運用しています。
メンバーシップ登録リンク(押しただけで登録はされないので、気軽にクリックしてください)
エクセルやJAMOVIといった無料で使える統計ツールの実際の使い方。そして無料動画では敷居の高い(というよりマニアックゆえに再生数が見込めない(笑))解説動画をアップしています。
本を読んで実際に分析してみようと思ったけど、どうもうまくいかなかった。本では見かけない、あるいは難しすぎて扱えない手法があったという方。ぜひ一度ご参加ください(動画のリクエストがあれば反映させます)
「そうは言われても、うちのデータは統計学じゃ分析出来ないよ」
そういう方もいらっしゃると思います。私の経験上、そういったデータ分析が出来ない状況の一つとして量的変数として目の前の現象を扱えていないというものがあります。
私のnoteでは、過去私が製品開発を行う上で実践した分析しやすい数値の測定方法を公開しています。
私が開発活動する上で創意工夫を凝らして編み出してきたアイデアの数々を公開しています(私の知見が増えたら更新していきます)。本やネットではまず載っていません。うまい測定方法のアイデアが浮かばないという方はぜひこちらをご覧ください。
「いや、その前に使える手法を体系的に学びたいんだけど」
そんな方には、udemyの講座を推奨します。
初歩的な標準偏差から、実験計画法、多変量解析まで、実際に私が実用する上で本当に使用したことがある手法に絞って順序立てて解説しています。
どの手法が結局使えますのん?という方はぜひこちらをお求めください。
こんな感じで、様々なコンテンツを展開しています。
今後は品質工学や品質管理に重点を絞ったコンテンツなども発信していきます。
ぜひリクエストがありましたら、それらも反映させていきますのでまずはお気軽にご意見くださいな。
コメント