カイ二乗分布とはなにものか? その3

検定

前回は、カイ二乗分布を使った分散(つまりバラツキ)の検定方法について解説しました。

カイ二乗分布とはなにものか? その2

今回は「適合度の検定」について一緒に勉強していきましょう。

 

ここでいう「適合」というのは経験的に観察された分布と、特定の分布がよく一致しているかを指しています。

分布と分布の適合です。

扱う問題としては、例えばある実験結果の分布は、想定した分布に一致しているか。

・一致していない場合は想定が間違えているか、

・それとも一致を妨げている数値には実験中異常があったか、

・想定していない交互作用でもあったのか。

以上のような疑問がわいて、次の実験、検証につながっていったりします。

あるいはある地方の自動車メーカー別の市場シェアは、実際に調査した駐車場での観察結果と一致しているか。

・シェアの情報は実は間違っているかも?

・駐車場の選択が間違っているかも(旅行者がよく止める駐車場だったとか)?

など、市場情報の裏どりに利用出来たりもします。

分布の適合と聞くと、何に使えるか一見分かりづらいですが、要は「想定が本当に正しいのか」を確認するための手法と捉えれば、使い道はかなりありそうですね。

それでは実際の検討方法について一緒に見ていきましょう。

前提条件

経験的な分布と想定している分布が、ともに度数分布で表されているとして、各級の度数をfk及びfk*(k=1,2,…,m)とした場合、

$$x^2=\sum_{k=1}^{m}{[\frac{(f_k-f_k^*)^2}{f_k^*}]}$$

は自由度m-1のカイ二乗分布する・・・ことが証明されているらしいです。

これはヒストグラムの各級のバーの高さが、すべて一致したらfk-fk*は0になるということで、つまり分布の適合率が高いと、x^2は小さくなるということを示しています。

検定方法

基本的には、先ほどの前提条件を利用して算出したx^2を使って、以前紹介した分散の検定と同様の進め方をすればいいだけです。

検定についてご存じない方は、こちらを先にご覧になっていただくと、理解が深まると思います。

検定の考え方

先ほどの自動車メーカーの市場シェアで考えてみましょう。

自動車メーカー、A、B、C、その他があるとします。それぞれのある地方での市場シェアはA社35%、B社30%、C社20%、その他15%とされています。

さてその地方の駐車場に駐車してある車380台について調べたところ、A社110台、B社123台、C社95台、その他52台でした。

ここで市場シェアが正しいか検討するとします。

まずは380台が実際に市場シェア通りに分かれたとすると

以上のような表の関係になります。

ここで帰無仮説は「市場シェアと駐車場の分布は一致している」です。

有意水準は5%とします。

次にx0^2を算出します。

$$x^2_0=\frac{(110-133)^2}{133}+\frac{(123-114)^2}{114}+\frac{(95-76)^2}{76}+\frac{(52-57)^2}{57}≒9.88$$

となります。

そして自由度は4-1=3となります。

カイ二乗分布表の自由度3、有意水準α=0.05の交点はx^2=7.81になります。

そして9.88>7.81と、有意水準のx^2より、算出したx0^2は大きいので

 

帰無仮説「市場シェアと駐車場の分布は一致している」は正しくないと判断されます。

 

つまり帰無仮説は棄却され、「市場シェアは正しくない」という対立仮説が採択されます。

以上が「適合度の検定」の一連の流れになります。

 

最後に

この検定を使用するためには、いかに度数分布に落とし込むかが重要になりそうです。

この落とし込み作業はおそらく、調査対象によって色々異なってくると思われ、この検定を使いこなす、あるいは難しくしてしまう「キモ」のように私は感じました。

とりあえずはトライ&エラー。

気に病むよりまずは使ってみましょう。

そうすることで、統計スキルの幅が広がっていくはずです。

検定
スポンサーリンク
シグマアイ-仕事で使える統計を-

コメント