検定の多重性を分かりやすく解説します【F検定⇒t検定はダメ?】

検定

統計のツールの中でも検定は非常に便利です。

数字の比較をする上で、一定の確率の元という条件の上で

「差が有るよ」

「差がないよ」

とはっきり示してくれるからです。多くの判断を求められるビジネスパーソンであればある程、決断の補助となり得る検定というツールは手放せないものではないでしょうか。

しかしながら、この検定というツールは扱い方がかなり難しいです。

検定を実施する前に、検出力を確保するためのサンプルサイズ選定が必要ですし、正規性の確認が必要だったりします。

そんな検定を難しくしている要因の一つとして、検定の多重性が挙げられます。

この多重性問題のおかげで、t検定を3群以上で実施することが出来なくなっています。

今回はそんな困った検定の多重性問題について、解説します。

ちなみに、検定の多重性や多重比較といえばこの本が非常に有名です。

 

動画でも解説しています。こちらもぜひ参照してください

スポンサーリンク

検定の多重性とは

2群の検定から3群以上には増やせない

t検定は、平均値の差を検定する上で非常に頼もしいツールです。

教科書では2つの集団の検定を取り上げています。

ここで、初めて知った私は

「3個以上の平均値をそれぞれ比較しても使えるんじゃない?めっちゃ便利じゃん」

と思ったものです。

でもダメなんです。検定の多重性に引っ掛かってしまうのです。

くじ引きで考えてみよう

少し検定から頭を離してあるくじ引きについて考えてみてましょう。

当たりの確率が5%のくじを20人で引いたとします。

20人の内少なくとも一人が当たりくじを引く確率は

$$1-0.95^{20}=0.64$$

と64%以上になります。

しかしこのくじを引いた人一人に注目した場合、この人は5%の確率で引き当てたことになります。

このように20人全体に注目していたのに、結果が決まった(引き当てた)後にそのたった一人の結果に注目すると結果に対して誤解が生じてしまいます。

5%の当たりくじを引く回数⇒検定の回数

このくじ引きを検定に当てはめると、

有意水準5%の仮説検定を20種の帰無仮説に対して行った場合、少なくとも一つの帰無仮説が棄却される確率は64%以上となります。

そもそも

5%の確率で発生するのは珍しい⇒多分同じ分布のデータじゃない⇒有意差あり

というプロセスのはずなのに、これでは全く珍しくありません

検定の考え方に全く沿わないのです。

別の考え方をすると

5%の確率で間違っている & 5%の確率で間違っている &・・・

を積み重ねると、全体としては『どれか一つは確実に間違っている』となってもおかしくないという事です。

そんなどれか一つ確実に間違っている手法は、正しくないと言われても仕方ない話です。

スポンサーリンク

F検定⇒t検定はやってはダメ?

検定を繰り返しているのダメ

よく統計やSQCの教科書では

F検定で分散の有意差の有無を確認した後に、t検定welchのt検定を実施する』

と言われますが、この考え方は昨今の統計学界隈では間違っているとされています。

これも検定の多重性問題のせいです。

2つの有意差検定を実施しているのですから、

$$1-0.95^2=0.98$$

と全体の第1種の過誤が9.8%になってしまいます。有意水準5%を判定の基準としていたのですから、検定の前提条件が崩れているのです。

これは、F検定かt検定の結果のどちらかが間違っているという事です。

最初からwelchのt検定でOKです

なのでt検定を行う際は、最初からwelchのt検定を実施しましょう。

分散に差が有ろうが無かろうが、welchのt検定は対応することが可能です。

$$t=\frac{x_1-x_2}{\sqrt{\frac{σ_1^2}{n_1}+\frac{σ_2^2}{n_2}}}$$

$$自由度=\sqrt{\frac{σ_1^2}{n_1}+\frac{σ_2^2}{n_2}}÷[\frac{(\frac{σ_1^2}{n_1})^2}{n_1-1}+\frac{(\frac{σ_2^2}{n_2})^2}{n_2-1}]$$

手計算の場合は面倒くさそうですが、エクセルの分析ツールでは分析対象をドラッグして簡単に実施することが可能です。

ただ何としても分散と平均の両方の有意差を調べたいというシチュエーションは、当然あると思います。

こんな時には次に紹介する手法を使ってみてください。

ボンフェローニ法による3群以上の検定

この検定の多重性で問題になるのは、全体で見た場合の有意水準が大きくなりすぎることにあります。

なので発想としては、全体の有意水準が5%になるように個々の有意水準を小さくすれば良いという事になります。

思ったより単純です。

その中で最もシンプルな方法がボンフェローニ法です。

方法は有意素淳αを帰無仮説の数で割るだけです。

μ12 μ23のように、帰無仮説が2つある場合はそれぞれの検定をα/2で行うという事になります。

5%の場合は5/2=2.5%になります。もちろん両側規格の際は更に1/2にします。

ただしこの方法にも欠点があります。

群の数が増えると、有意水準が小さくなりすぎて帰無仮説の棄却が難しくなることです。

帰無仮説が10個の場合、0.05/10=0.005(0.5%)と個々の有意水準は0.5%とかなり小さくなってしまいます。

これを解決する変形版の手法や、そもそも対象のシチュエーションごとに最適な設定がされた多重比較法というものがあります。

それらはまたいずれ紹介する予定です。

ただもし分散の有意差と平均の有意差が知りたい場合は、ボンフェローニ法で有意水準を調整したうえで実施すれば、問題なく検定が出来るはずです(この場合はα/2)。

スポンサーリンク

まとめ

この検定の多重性は、検定を学び始めたときに犯してしまいがちな間違いの代表格だと思います。

特にF検定を実施して、t検定を実施するというフローが普通に教科書に乗っていたりするので中々未然防止が難しいです。

今回消化した内容は、冒頭で紹介した本に詳しく書いてあります。

当記事でイメージを掴んで頂いた上で読んでもらえれば、更に理解が深まると思います。

ぜひご一読してみて下さい。

スポンサーリンク

あとがき

この世には、数多くのビジネススキルがあります。

その中でも、極めて汎用性の高いスキル。

それが統計学です。なぜそう言い切れるのか?

それはビジネスというのは、結局お金のやり取りであり、必ず数字が絡んできます。

そして数字を扱うスキルこそが統計学だからです。

故に一口に統計学といっても、

営業、マーケティング、研究開発、品質管理、工程管理、生産管理.etc

これら全てで使う事が出来るのです。

現に私は前職は品質管理、現職は研究開発職なのですが、面接のときに

「品質管理時に活用した、統計の知識を研究開発にも活かせます」

とアピールして職種をうまく切り替える事が出来ました。

ちなみにこれから統計学を学習をするというのであれば、ラーニングピラミッドというものを意識すると効率的です。

私自身、インプットだけでなく、youtubeや職場でアウトプットしながら活用する事で統計リテラシーを日々向上させていっています。

ぜひ、アナタも当ブログやyoutubeチャンネルで統計リテラシーを上げて、どこでも通用するビジネスパーソンになりましょう

スポンサーリンク
検定 比較
スポンサーリンク
シグマアイ-仕事で使える統計を-

コメント