統計で最もポピュラーの手法は有意差検定です。
ある集団が比較対象に対して、差があるかどうかは平均値同士を比較するという方法もありますが、数字の比較だけでは
・誤差レベルか?
・誤差を超えたレベルか(有意差があるか)?
判別出来ません。
このような場合、有意差検定を実行する事で有意差の有無を明確にすることが出来ます。
有意差を明確に出来るという事は、有意差なしと判断されたら2つの集団は等しいといえるのか。
残念ながら違います。
有意差検定では積極的に『等しい』事を採択する事が出来ません。
しかしながら、2つの集団が等しい事を積極的に述べたいシチュエーションというのは多いです。
・クレームと疑われたロットが、通常ロットと変わりが無い事
・一部の材料を変更したが、性能は変わらない事(4M変更)
このように『等しい』という情報が切望される状況は多いです。
今回は、そんな『等しい』という事象を積極的に言及する検定の手段を紹介いたします。
統計的に『等しい』ことを言いたいけど・・・
有意差検定のおさらい
まずは有意差検定をおさらいしてみましょう。
有意差検定は以下の順序で進めていきます。
(1) 帰無仮説の設定:等しいと仮定する
(2) 有意水準を決める:この水準より低い確率なら帰無仮説を捨てる。一般的には5%
(3) 検定統計量を求める:各手法で様々な手法が存在します
(4) 標本分布と統計量を比較:有意水準より小さいか確認します。
この4段階を経て、有意差検定は完了します。
有意水準より検定統計量が小さければ、
『同じ集団であった場合、限りなく低い確率で生じる現象が起きた』
とされ、
『お互い異なる集団であると結論づけた方が妥当』
となって有意差があると判断されます。
詳しくは以下の記事を参照ください。
これは逆に言えば、有意水準より大きくなってしまえば
『同じ集団であった場合、妥当な確率で生じる現象が起きた』
とされて、差がないよとされそうな気がします。
これじゃダメなんでしょうか?
帰無仮説が採択出来ない理由
これじゃダメなんです・・・
その理由ですが、分布の重なり具合が関係してきます。
まずは以下をご覧ください
AとB及びAとCで検定をした場合、有意水準を5%としたら有意水準5%の線より右側の検定統計量が出れば有意差ありとなります。
しかし、見てもらえば分かって頂けると思いますが
・AとBは分布がよく重なっている
ため5%より小さくても本当に有意差があるのか疑わしいです。
逆に
・AとCは分布が十分離れている
ため5%より小さければ本当に有意差があるであろうと確信が持てます。
このように同じ有意差検定でも分布の重なり具合(=平均値の差)の違いで、有意差がどれだけ確かに言えるのかが変わってくるのです。
これを検出力といいます。
詳細は以下の記事を参照ください。
そしてこれは、有意差なしという事象にも絡んできます。
AとCなら有意差なしと判断されれば、十分に分布が離れているので本当に有意差がないと言えるでしょう。
対してAとBなら有意差なしでも、分布が近すぎて本当に有意差が無いのか間違えてしまう可能性が出てきます(第二種の過誤と言います)。
このように有意差検定においては、有意差なしと判定された場合、それだけでは差が無いとは言えないのです。
これを採択するには、サンプルサイズ(n数)を増やして検出力を上げたうえで有意差なしを得る必要があります。
しかし経験上サンプルサイズを十分上げてしまうと余程の事が無い限り、有意差ありになってしまいます。
おそらく、余程分布が重なっていないと難しいでしょう。
さて、困ってしまいました・・・
有意差検定で『等しい』を言うためには?
『等しい』が求められるシチュエーションを考えてみよう
そもそも、『等しい』が求められるシチュエーションを今一度考えてみましょう。
例えばある測定値を100%とします。
100%の値を示す基準サンプルAに対して、材料を変更したサンプルBは99%を示し、統計的にも有意差ありと判定されたとします。
では、サンプルBはサンプルAとは異なる製品なのでしょうか?
実はこの製品の性能は、5%の差が出ないと動作上違いが分からないとなったらどうでしょう。
この場合、99%の性能は事実上差がないと言えるのではないでしょうか。
このように業務において差の有無を判断する場合、技術的見地(=専門的知識)も重要になってくるのです。
・統計的知識
・専門的知識
この両輪が揃って初めて有意差検定ならび、統計処理はうまくいくのです。
それでは、専門的知識を考慮した場合にどのように『等しい』迫っていくのか考えていきましょう。
非劣性の検定を使おう
検定において、『等しい』をいうための積極的な手法として非劣性の検定がよく知られています。
非劣性の検定とは、文字通り劣っていない事を検定する手法です。
例えば先ほどのサンプルA,Bの場合は以下のように帰無仮説/対立仮説を組み立てます。
帰無仮説:サンプルB(99%) = サンプルA-5%(95%)
対立仮説:サンプルB(99%) > サンプルA-5%(95%)
基準であるサンプルA(100%)に対して差が出始める95%よりは小さくない事を検定する事で、基準サンプルよりも劣っていない事を検定するという訳です。
一般的には、この非劣性の検定を行う事で疑似的に『等しい』事を採択します。
しかしながら、劣っていない事と同じくらい勝っていない事も採択したいときもあります。
というより、等しいという事象は
劣っていない
かつ
勝っていない
の二つの事象が成り立つこととほぼ同意です。
勝っていない事を検定する事は簡単です。
非劣性の検定と逆を行えば良いのです。
帰無仮説:サンプルB(99%) = サンプルA+5%(105%)
対立仮説:サンプルB(99%) < サンプルA-5%(105%)
サンプルAより5%以上大きくなったら差が出始めるはずなので、105%より小さい事を言えれば勝っていない事も積極的に採択出来ます。
故に、95%より大きく、105%より小さいというそれぞれの検定を行えばサンプルAとサンプルBは技術的には等しいと言えそうです。
よっしゃ。これでいける!
とはなりません。これを成立させるには邪魔な事情が介在しています。
多重性の問題です。
多重性の問題を撃退しよう!
多重性の問題とは、検定を繰り返し行うと検出力が下がってしまう問題の事です。
例えば検定を今回のように、劣っている/勝っているの2回行った場合、
$$1-(1-0.05)^2≒0.098$$
と有意水準5%のはずが、9.8%となってしまい甘々な検定になってしまいます。
困りました。解決方法はないのでしょうか?
安心してくださいっ!ありますよ!
ボンフェローニの多重比較検定を導入します。
難しそうな響きですが、とても単純です。
有意水準を検定回数で割ればいいだけです。
今回の場合、有意水準5%を2で割って2.5%で劣っている/勝っているの検定をそれぞれ行うだけです。
有意水準を検定回数で割ると、
$$1-(1-0.05/2回)^2≒0.049$$
と最終的には望んでいた有意水準と帳尻合わせが出来るという訳です。
この手法の欠点は、検定回数が増えるほど、個々の有意水準が小さくなりうまく検定出来なくなるのですが、今回のように2回の繰り返しなら十分許容範囲です。
要は、
-5%に対しての検定を有意水準2.5%で実施
+5%に対しての検定を有意水準2.5%で実施
⇒いずれの場合でも有意差ありなら、技術的な意味では等しいと言える
という訳です。
これで、検定を使って『等しい』という事象を積極的に採択出来ました。
『等しい』といえるレンジが分からないと使えない
ただし、この手法にも弱点があります。
技術的にどの程度までなら許容範囲かは、統計では分からないという点です。
この許容範囲は、
・これまでの測定ばらつき
・類似品種との関係性
・その他の経験的/技術的見地
から自分で決定する必要があります。
ただ、全く情報がないシチュエーションというのはおそらくないと思います。
というのも、何かと比較するという事は、その比較対象が既に存在しているという事ですから、比較対象の情報は既に存在している可能性が高いのです。
というより、比較対象に対して十分な情報がないというのは逆に仕事をサボっているということではないでしょうか。
普段からその製品に対して、十分な調査/実験を行っていればこの問題は杞憂だと思います。
まとめ
今回は有意差検定を使用して『等しい』という事を、積極的に採択する方法を紹介しました。
簡単に言えば
・技術的に等しいといえるレンジ ±x を決定する
・基準サンプルに対して-xより劣っていない事を検定
・基準サンプルに対して+xより勝っていない事を検定
・有意水準は1/2にして使用する
これで、『等しい』かどうかを検定することが出来ます。
割と単純ですが、結構困っている方もいらっしゃると思いますので、ぜひ使ってみて下さい。
コメント