これまで、色々と検定について解説してきました。
検定を使えば、データの比較を有意差という尺度で客観的に比較出来るので、非常に便利ですよね。
ただ、検定を勉強し始めた時に、誤解しがちなのが
「よっしゃ、A,B,Cの3つのデータを比較してやるぜ!」
が可能だと思う事。
そう、これ通常の検定ではアウトなんです。
これは検定の多重性のためです。
でも、やっぱり3つ以上のデータを検定で比較したい時ってありますよね?
その3群以上の検定を可能としている手法が、多重比較法と呼称される分析群です。
多重比較法は様々な種類が存在します。
テューキー法、ダネット法、ボンフェローニ法.etc
ですが今回は各手法を細かく説明しません。
まずは、どのようにして複数の群を同時に検定するのか。
ここにポイントを絞って解説します。
この要点を押さえていれば、具体的な多重比較法の各手法についての理解度もグッと上がると思いますよ。
多重比較法とは?
通常の検定に3群以上を適用出来ないのはなぜか
検定における多重性の問題について少し復習です。
例えば3群で有意差α=0.05で検定する場合、帰無仮説の組み合わせは
μ1=μ2、μ1=μ3、μ2=μ3
の3種になります。
この場合一つ一つの有意水準は0.05なのですが、総合的に見た場合有意水準は
$$1-0.95^3≒0.14$$
となります。
これはもはや有意水準α=0.05という原則を逸脱しています。
考え方としては、当たりの確率が5%でも、何回も引けばいつか当たりを引くみたいなもんです。
3つの検定の内、どれかは判断ミスをしている可能性が出てきてしまうという事です。
これが検定の多重性です。
高くなった有意水準を小さくする
これを解決する発想は、実はかなりシンプルです。
有意水準を個別の検定で設定するのではなく、複数の検定全体に対して設定をするのです。
5回くじを引くのなら、その回数引いて当たる可能性を5%にすればいいのです。
100回くじを引くのなら、その回数引いて当たる可能性を5%にすればいいのです。
先ほどの例では、各帰無仮説すべてが成り立つ場合全体の有意水準が0.14になったのですから、これを0.05になるように個々の有意水準を小さくしてあげればいいのです。
例えば先ほどの3群の検定の場合、全体の有意水準を0.05とするためには
$$1-x^3=0.05$$
$$x=(1-0.05)^{1/3}$$
$$x=0.983$$
このように、個々の有意水準を1-0.983≒0.016にすれば、検定が可能になります。
この値ですが、有意水準を帰無仮説の個数で割っても算出出来ます。
$$α/n=0.05/3=0.016$$
実際にこのように有意水準を調整して検定を実施している手法が、ボンフェローニ法です。
多重比較の注意点
「なるほど、ならば有意水準を帰無仮説の個数で割って後は同じように検定をすればOKなんだな」
と思われる方もいらっしゃるでしょうが、それは早計です。
有意水準を帰無仮説の数で割ると、確かに全体の有意水準を0.05に保つことは可能ですが、個々の有意水準はどんどん下がっていきます。
そうなると、次は保守的になりすぎて第2種の過誤、つまり有意差なしと誤判定する確率が増加してしまいます。
一般的に厳しめの検定の際に、有意水準を1%に置くので、単純にこの方法でとれるのは5このデータの比較くらいかなと思ってます。
$$α/n=0.05/5=0.01$$
ですからね。
ただ、この状況に指をくわえているのも腹立たしかったのでしょう。
この問題を解決する為に、様々な検定方法が開発されています。
多重比較の検定法は、様々な組み合わせに特化する形で準備されています。
例えば
テューキーの方法:群間全ての母平均の対比較を同時に検定する手法
ダネットの方法:1つの対象とする群とそれと比較する2つ以上の群の平均値を検定する方法
ウィリアムズの方法:1つ対象とする群と2つ以上の比較する群があり、母平均に単調性を想定出来る場合の検定方法
シェフェの方法:対比により表現されるすべての仮説をすべて同時検定する方法
このように、単に多重比較と言っても帰無仮説の組み合わせ方によって検定方法が個別に準備されています。
このようにすることで、保守的な検定を避けて、妥当な検出力のもと検定することが可能となっています。
まとめ
今回は多重比較の基本的な考え方を紹介しました。
多重比較法は個々の有意水準を下げることで、全体の有意水準を妥当な値に調整して検定する方法です。
単純な調整法では検出力が確保できないので、シチュエーションに合わせた手法を準備することで、検出力を確保しながら複数群の検定を可能としています。
これらの方法は、今後個別に紹介しますし、いずれもEZRで検定可能です。
これが使えるようになれば、検定の幅がぐっと広がります。
まずは概念を理解し、一つずつ習得していきましょう。
今すぐ、あなたが統計学を勉強すべき理由
この世には、数多くのビジネススキルがあります。
その中でも、極めて汎用性の高いスキル。
それが統計学です。なぜそう言い切れるのか?
それはビジネスというのは、結局お金のやり取りであり、必ず数字が絡んできます。
そして数字を扱うスキルこそが統計学だからです。
故に一口に統計学といっても、
営業、マーケティング、研究開発、品質管理、工程管理、生産管理.etc
これら全てで使う事が出来るのです。
現に私は前職は品質管理、現職は研究開発職なのですが、面接のときに
「品質管理時に活用した、統計の知識を研究開発にも活かせます」
とアピールして職種をうまく切り替える事が出来ました。
そして、もし始めるなら今から勉強を始めましょう。
なんなら、今すぐこのページを閉じて本格的に勉強を開始するべきです。
なぜなら、このような『スキル』は20代でもっともキャリアアップに繋がるからです。
30代ならいざ知らず、40代になると求められるのはこれまでの業務を遂行してきた経験や人脈なのです。
これが無いとある一定以上のキャリアアップは望めませんし、40代以降のハイクラスの転職先も望めません。
20代のうちは成果を結び付けるためにこのスキルが大いに役立ちますが、年を経るごとに求められる働き方が変わるのでスキルの実績への寄与が減ってしまうのです。
なので、後からやればいいやと後回しにすると機を逸してしまう可能性が高いです。
ちなみにこれから統計学を学習をするというのであれば、ラーニングピラミッドというものを意識すると効率的です。
私自身、インプットだけでなく、youtubeや職場でアウトプットしながら活用する事で統計リテラシーを日々向上させていっています。
ぜひ、アナタも当ブログやyoutubeチャンネルで統計リテラシーを上げて、どこでも通用するビジネスパーソンになりましょう
コメント