大数の法則と中心極限定理とは【統計学が正規分布を前提とする理由】

分布

統計学的手法は、その多くが正規分布を前提としています

しかしながら、確かに多くの現象が正規分布を取りやすいとはいえ、正規性を確認する事の難しさを思えば本当に正規分布を前提とした手法がメインで良いのかと疑ってしまいます。

今回なそんな一見問題点がありそうな、

『正規分布を前提とする』

という統計学の主な手法を裏付ける2つの性質について紹介していきます。

スポンサーリンク

統計学の問題点 正規分布前提

正規分布を前提とする手法で良いのか?

統計学の入門書に記載されている手法は、z検定、t検定、平均値の推定などが挙げられますが、どれも正規分布であることを前提としたものばかりです。

実際に学び始めた際は、

「正規分布じゃなかったらどないするんじゃーい」

と一人心の中でツッコミを入れたものです。

ですが、実際に正規分布でなければ、検出力が低くなってしまう事もあり、この悩みはかなり深刻です。

正規性を判断しようにも、Q-Qプロットは目視判断ですし正規性の検定は帰無仮説が正規分布と一致する事ですので、積極的に採択することが出来ません。

出来れば簡単にことを済ませたいのですが、どうすれば良いのでしょうか。

大数の法則と中心極限定理とは?

実は面白いことに、元の母集団がどのような分布であっても、この正規分布前提の手法を適用出来る2つの性質が存在します。

大数の法則中心極限定理です。

大数の法則とは、サンプルサイズが大きければ大きいほど、統計量が真の値(母数)に近づくというものです。

経験的には皆さんご存知だと思います。

例えば製品の厚みを知るために、ロットから一つだけ取り出した場合、その一つだけでロットの平均値を予測することは至難の業です。

これは元の母集団の”ばらつき”がある程度の大きさ(σ)持っている可能性があるからです。

対して、サンプルサイズを増加させていくと、その平均値が描く標本分布は真の値に近づいていきます。

元の”ばらつき”σに対して、分散の加法性の性質からσ/√nとサンプルサイズの増加に伴い標本分布が狭くなっていくからです。

大数の法則は分散の加法性に支えられた法則であると言えます。

次に中心極限定理です。こちらの性質の方が重要だと思います。

この定理は、平均値が描く標本分布の形状は、元の分布に関係なく正規分布を描くというものです。

基本的に検定も推定も標本分布を対象とした手法なので、中心極限定理が働けば元の分布を無視して運用することが出来ます。

この中心極限定理も、サンプルサイズを大きくすればOKです。

どのくらいのサンプルサイズが目安?

大数の定理と中心極限定理のおかげで、サンプルサイズさえ十分に大きければ基本的に正規分布を前提とした手法を扱うことが出来そうです。

ここで気になるのは、どの程度のサンプルサイズが必要なのかということだと思います。

まず大数の定理に関してですが、おおよそN≧30くらいです。

以前の記事で、サンプルサイズによる統計量の精度についての記事を上げていますので、詳細はこちらを参照ください。

そして中心極限定理ですが、大体N=5以上になると元が一様分布だろうが、二項分布だろうが、非対称な分布であろうが大抵の標本分布は正規分布と区別できなくなります。

検定の場合などは、サンプルサイズが大きすぎても検出力が高くなりすぎて、第一種の過誤を起こしやすくなります。

ですがサンプルサイズ5程度なら、その縛りからも大分解放されることになると思います。

スポンサーリンク

まとめ

大数の定理と中心極限定理のおかげで、迷いなく正規分布前提の手法を扱うことが出来ます。

質的データの場合はこうも行きませんが、量的データの場合は、とりあえずサンプルサイズ5以上を揃えた上で統計的手法を活用してみて下さい。

分布
スポンサーリンク
シグマアイ-仕事で使える統計を-

コメント