前回は、カイ二乗分布を使った分散(つまりバラツキ)の検定方法について解説しました。
今回は「適合度の検定」について一緒に勉強していきましょう。
ここでいう「適合」というのは経験的に観察された分布と、特定の分布がよく一致しているかを指しています。
分布と分布の適合です。
扱う問題としては、例えばある実験結果の分布は、想定した分布に一致しているか。
・一致していない場合は想定が間違えているか、
・それとも一致を妨げている数値には実験中異常があったか、
・想定していない交互作用でもあったのか。
以上のような疑問がわいて、次の実験、検証につながっていったりします。
あるいはある地方の自動車メーカー別の市場シェアは、実際に調査した駐車場での観察結果と一致しているか。
・シェアの情報は実は間違っているかも?
・駐車場の選択が間違っているかも(旅行者がよく止める駐車場だったとか)?
など、市場情報の裏どりに利用出来たりもします。
分布の適合と聞くと、何に使えるか一見分かりづらいですが、要は「想定が本当に正しいのか」を確認するための手法と捉えれば、使い道はかなりありそうですね。
それでは実際の検討方法について一緒に見ていきましょう。
前提条件
経験的な分布と想定している分布が、ともに度数分布で表されているとして、各級の度数をfk及びfk*(k=1,2,…,m)とした場合、
$$x^2=\sum_{k=1}^{m}{[\frac{(f_k-f_k^*)^2}{f_k^*}]}$$
は自由度m-1のカイ二乗分布する・・・ことが証明されているらしいです。
これはヒストグラムの各級のバーの高さが、すべて一致したらfk-fk*は0になるということで、つまり分布の適合率が高いと、x^2は小さくなるということを示しています。
検定方法
基本的には、先ほどの前提条件を利用して算出したx^2を使って、以前紹介した分散の検定と同様の進め方をすればいいだけです。
検定についてご存じない方は、こちらを先にご覧になっていただくと、理解が深まると思います。
先ほどの自動車メーカーの市場シェアで考えてみましょう。
自動車メーカー、A、B、C、その他があるとします。それぞれのある地方での市場シェアはA社35%、B社30%、C社20%、その他15%とされています。
さてその地方の駐車場に駐車してある車380台について調べたところ、A社110台、B社123台、C社95台、その他52台でした。
ここで市場シェアが正しいか検討するとします。
まずは380台が実際に市場シェア通りに分かれたとすると
以上のような表の関係になります。
ここで帰無仮説は「市場シェアと駐車場の分布は一致している」です。
有意水準は5%とします。
次にx0^2を算出します。
$$x^2_0=\frac{(110-133)^2}{133}+\frac{(123-114)^2}{114}+\frac{(95-76)^2}{76}+\frac{(52-57)^2}{57}≒9.88$$
となります。
そして自由度は4-1=3となります。
カイ二乗分布表の自由度3、有意水準α=0.05の交点はx^2=7.81になります。
そして9.88>7.81と、有意水準のx^2より、算出したx0^2は大きいので
帰無仮説「市場シェアと駐車場の分布は一致している」は正しくないと判断されます。
つまり帰無仮説は棄却され、「市場シェアは正しくない」という対立仮説が採択されます。
以上が「適合度の検定」の一連の流れになります。
最後に
この検定を使用するためには、いかに度数分布に落とし込むかが重要になりそうです。
この落とし込み作業はおそらく、調査対象によって色々異なってくると思われ、この検定を使いこなす、あるいは難しくしてしまう「キモ」のように私は感じました。
とりあえずはトライ&エラー。
気に病むよりまずは使ってみましょう。
そうすることで、統計スキルの幅が広がっていくはずです。
コメント