カイ二乗分布を利用して、適合度の検定を実施しよう

データ分析

前回は、カイ二乗分布を使った分散(つまり”ばらつき”)の検定方法について解説しました。

「カイ二乗分布って、ばらつきの検定しか出来ない?F検定で十分じゃない?」

いえいえ、カイ二乗分布の働きどころはそこだけじゃありません。

分散の推定、それを利用した標準偏差のサンプルサイズの導出、そして適合度の検定など出来る事は非常に多いです。

という事で、今回は適合度の検定について、解説いたします。

今回はこちらの本を元に解説しています。

 

スポンサーリンク

適合度の検定とは?

分布に対しての適合ぶりをみる検定

さて、いきなり出てきた適合度という単語。

これは一体、何に対しての適合を言っているのか?

ここでいう適合というのは、経験的に観察された分布(サンプリングデータが描く分布)と、特定の分布がよく一致しているかを指しています。

つまり分布と分布の適合です。

扱う問題としては、例えばある実験結果の分布は、想定した分布に一致しているか。

・一致していない場合は想定が間違えているか、

・それとも一致を妨げている数値には実験中異常があったか、

・想定していない交互作用でもあったのか。

以上のような疑問がわいて、次の実験、検証につながっていったりします。

あるいはある地方の自動車メーカー別の市場シェアは、実際に調査した駐車場での観察結果と一致しているか。

・シェアの情報は実は間違っているかも?

・駐車場の選択が間違っているかも(旅行者がよく止める駐車場だったとか)?

など、市場情報の裏取りにも利用出来たりもします。

分布の適合と聞くと、何に使えるか一見分かりづらいですが、要は想定が本当に正しいのかを確認するための手法と捉えれば、使い道はかなりありそうですね。

それでは、実際の検討方法について一緒に見ていきましょう。

前提条件

経験的な分布と想定している分布が、ともに度数分布で表されているとして、各級の度数をfk及びfk*(k=1,2,…,m)とした場合、

$$x^2=\sum_{k=1}^{m}{[\frac{(f_k-f_k^*)^2}{f_k^*}]}$$

は自由度m-1のカイ二乗分布します。

これはヒストグラムの各級のバーの高さが、すべて一致したらfk-fk*は0になるということで、つまり分布の適合率が高いと、x2は小さくなるということを示しています。

検定方法

基本的には、先ほどの前提条件を利用して算出したx2を使って、以前紹介した分散の検定と同様の進め方をすればいいだけです。

検定についてご存じない方は、こちらを先にご覧になっていただくと、理解が深まると思います。

これだけだと、ピンと来ないと思いますので、例題で考えてみましょう。

自動車メーカーの市場シェアで考えてみます。

自動車メーカー、A、B、C、その他があるとします。それぞれのある地方での市場シェアはA社35%、B社30%、C社20%、その他15%とされています。

さてその地方の駐車場に駐車してある車380台について調べたところ、A社110台、B社123台、C社95台、その他52台でした。

ここで駐車場の情報を元に、市場シェアが正しいか検討するとします。

まずは380台が実際に市場シェア通りに分かれたとすると

以上のような表の関係になります。

ここで帰無仮説は、市場シェアと駐車場の分布は一致しているです。

有意水準は5%とします。

次にx02を算出します。

$$x^2_0=\frac{(110-133)^2}{133}+\frac{(123-114)^2}{114}+\frac{(95-76)^2}{76}+\frac{(52-57)^2}{57}≒9.88$$

となります。

そして自由度は4-1=3となります。

カイ二乗分布表の自由度3、有意水準α=0.05の交点はx2=7.81になります。

そして9.88>7.81と、有意水準のx2より、算出したx02は大きいので

帰無仮説「市場シェアと駐車場の分布は一致している」は正しくないと判断されます。

つまり帰無仮説は棄却され、

「市場シェアは正しくない」

という対立仮説が採択されます。

以上が適合度の検定の一連の流れになります。

スポンサーリンク

まとめ

この検定は集計値になら、どんなデータにも適用出来るので、量的変数だけでなく、質的変数にも適用出来ます。

通常の検定では、質的変数への適用が出来ないので、これを使いこなせれば、特にマーケティングにおいて大きな力を発揮します。

とりあえず、試しに自分の持っているデータが仮説と合致するのか検証してみましょう。

驚くべき結果が待ち受けているかもしれません。

スポンサーリンク

今すぐ、あなたが統計学を勉強すべき理由

この世には、数多くのビジネススキルがあります。

その中でも、極めて汎用性の高いスキル。

それが統計学です。なぜそう言い切れるのか?

それはビジネスというのは、結局お金のやり取りであり、必ず数字が絡んできます。

そして数字を扱うスキルこそが統計学だからです。

故に一口に統計学といっても、

営業、マーケティング、研究開発、品質管理、工程管理、生産管理.etc

これら全てで使う事が出来るのです。

現に私は前職は品質管理、現職は研究開発職なのですが、面接のときに

「品質管理時に活用した、統計の知識を研究開発にも活かせます」

とアピールして職種をうまく切り替える事が出来ました。

そして、もし始めるなら今から勉強を始めましょう。

なんなら、今すぐこのページを閉じて本格的に勉強を開始するべきです。

なぜなら、このような『スキル』は20代でもっともキャリアアップに繋がるからです。

30代ならいざ知らず、40代になると求められるのはこれまでの業務を遂行してきた経験や人脈なのです。

これが無いとある一定以上のキャリアアップは望めませんし、40代以降のハイクラスの転職先も望めません。

20代のうちは成果を結び付けるためにこのスキルが大いに役立ちますが、年を経るごとに求められる働き方が変わるのでスキルの実績への寄与が減ってしまうのです。

なので、後からやればいいやと後回しにすると機を逸してしまう可能性が高いです。

ちなみにこれから統計学を学習をするというのであれば、ラーニングピラミッドというものを意識すると効率的です。

私自身、インプットだけでなく、youtubeや職場でアウトプットしながら活用する事で統計リテラシーを日々向上させていっています。

ぜひ、アナタも当ブログやyoutubeチャンネルで統計リテラシーを上げて、どこでも通用するビジネスパーソンになりましょう

コメント