統計のツールの中でも検定は非常に便利です。
数字の比較をする上で、一定の確率の元という条件の上で
「差が有るよ」
「差がないよ」
とはっきり示してくれるからです。多くの判断を求められるビジネスパーソンであればある程、決断の補助となり得る検定というツールは手放せないものではないでしょうか。
しかしながら、この検定というツールは扱い方がかなり難しいです。
検定を実施する前に、検出力を確保するためのサンプルサイズ選定が必要ですし、正規性の確認が必要だったりします。
そんな検定を難しくしている要因の一つとして、検定の多重性が挙げられます。
この多重性問題のおかげで、t検定を3群以上で実施することが出来なくなっています。
今回はそんな困った検定の多重性問題について、解説します。
ちなみに、検定の多重性や多重比較といえばこの本が非常に有名です。
動画でも解説しています。こちらもぜひ参照してください
統計学がうまく使えなかった人はコチラ⇒統計学を活かす 解析しやすい数値化のノウハウ
検定の多重性とは
2群の検定から3群以上には増やせない
t検定は、平均値の差を検定する上で非常に頼もしいツールです。
教科書では2つの集団の検定を取り上げています。
ここで、初めて知った私は
「3個以上の平均値をそれぞれ比較しても使えるんじゃない?めっちゃ便利じゃん」
と思ったものです。
でもダメなんです。検定の多重性に引っ掛かってしまうのです。
くじ引きで考えてみよう
少し検定から頭を離してあるくじ引きについて考えてみてましょう。
当たりの確率が5%のくじを20人で引いたとします。
20人の内少なくとも一人が当たりくじを引く確率は
$$1-0.95^{20}=0.64$$
と64%以上になります。
しかしこのくじを引いた人一人に注目した場合、この人は5%の確率で引き当てたことになります。
このように20人全体に注目していたのに、結果が決まった(引き当てた)後にそのたった一人の結果に注目すると結果に対して誤解が生じてしまいます。
5%の当たりくじを引く回数⇒検定の回数
このくじ引きを検定に当てはめると、
有意水準5%の仮説検定を20種の帰無仮説に対して行った場合、少なくとも一つの帰無仮説が棄却される確率は64%以上となります。
そもそも
5%の確率で発生するのは珍しい⇒多分同じ分布のデータじゃない⇒有意差あり
というプロセスのはずなのに、これでは全く珍しくありません。
検定の考え方に全く沿わないのです。
別の考え方をすると
5%の確率で間違っている & 5%の確率で間違っている &・・・
を積み重ねると、全体としては『どれか一つは確実に間違っている』となってもおかしくないという事です。
そんなどれか一つ確実に間違っている手法は、正しくないと言われても仕方ない話です。
F検定⇒t検定はやってはダメ?
検定を繰り返しているのダメ
よく統計やSQCの教科書では
『F検定で分散の有意差の有無を確認した後に、t検定かwelchのt検定を実施する』
と言われますが、この考え方は昨今の統計学界隈では間違っているとされています。
これも検定の多重性問題のせいです。
2つの有意差検定を実施しているのですから、
$$1-0.95^2=0.98$$
と全体の第1種の過誤が9.8%になってしまいます。有意水準5%を判定の基準としていたのですから、検定の前提条件が崩れているのです。
これは、F検定かt検定の結果のどちらかが間違っているという事です。
最初からwelchのt検定でOKです
なのでt検定を行う際は、最初からwelchのt検定を実施しましょう。
分散に差が有ろうが無かろうが、welchのt検定は対応することが可能です。
$$t=\frac{x_1-x_2}{\sqrt{\frac{σ_1^2}{n_1}+\frac{σ_2^2}{n_2}}}$$
$$自由度=\sqrt{\frac{σ_1^2}{n_1}+\frac{σ_2^2}{n_2}}÷[\frac{(\frac{σ_1^2}{n_1})^2}{n_1-1}+\frac{(\frac{σ_2^2}{n_2})^2}{n_2-1}]$$
手計算の場合は面倒くさそうですが、エクセルの分析ツールでは分析対象をドラッグして簡単に実施することが可能です。
ただ何としても分散と平均の両方の有意差を調べたいというシチュエーションは、当然あると思います。
こんな時には次に紹介する手法を使ってみてください。
ボンフェローニ法による3群以上の検定
この検定の多重性で問題になるのは、全体で見た場合の有意水準が大きくなりすぎることにあります。
なので発想としては、全体の有意水準が5%になるように個々の有意水準を小さくすれば良いという事になります。
思ったより単純です。
その中で最もシンプルな方法がボンフェローニ法です。
方法は有意素淳αを帰無仮説の数で割るだけです。
μ1=μ2 μ2=μ3のように、帰無仮説が2つある場合はそれぞれの検定をα/2で行うという事になります。
5%の場合は5/2=2.5%になります。もちろん両側規格の際は更に1/2にします。
ただしこの方法にも欠点があります。
群の数が増えると、有意水準が小さくなりすぎて帰無仮説の棄却が難しくなることです。
帰無仮説が10個の場合、0.05/10=0.005(0.5%)と個々の有意水準は0.5%とかなり小さくなってしまいます。
これを解決する変形版の手法や、そもそも対象のシチュエーションごとに最適な設定がされた多重比較法というものがあります。
それらはまたいずれ紹介する予定です。
ただもし分散の有意差と平均の有意差が知りたい場合は、ボンフェローニ法で有意水準を調整したうえで実施すれば、問題なく検定が出来るはずです(この場合はα/2)。
まとめ
この検定の多重性は、検定を学び始めたときに犯してしまいがちな間違いの代表格だと思います。
特にF検定を実施して、t検定を実施するというフローが普通に教科書に乗っていたりするので中々未然防止が難しいです。
今回消化した内容は、冒頭で紹介した本に詳しく書いてあります。
当記事でイメージを掴んで頂いた上で読んでもらえれば、更に理解が深まると思います。
ぜひご一読してみて下さい。
統計学をうまく使うために・・・
「先ほど紹介された手法を使って業務改善を行うぞ!」
と今から試そうとされているアナタ。
うまくいけば問題ありませんが、そうでない場合はコチラ
統計学の知識を持っていてもうまくいかない場合というのは、そもそも相対する問題がうまく数値化、評価が出来ない場合というのが非常に多いのです。
私もこれまでそのような場面に何度もぶち当たり、うまく解析/改善が出来なかったことがありました。
このnoteはそんな私がどのように実務で数値化をし、分析可能にしてきたかのノウハウを公開したものです。
どんな統計学の本にも載っていない、生々しい情報満載です。
また、私の知見が蓄積されたら都度更新もしていきます!!
買い切りタイプなのでお得です。
ぜひお求めくださいな。
コメント