統計学的推測とは、標本から得られた統計量(標本統計量)にもとづいて、母集団のパラメータ(母集団特性値)についての推測を行うことです。
それでは、なぜ標本から母集団の特性値を推測出来るのでしょうか。
それは採取した標本の標本統計量が、母集団特性値に関連した分布を形成するからです。
例えばあるクラスの生徒の身長について考えてみます。
この場合クラス全員の身長の平均値をμとし、クラスから無作為に抽出した何人かの生徒の身長をmとします。
μは母集団特性値にあたり
mは標本統計量にあたります。
さて、我々はこのmがμと全く関係のない数値を取る確率は少ないということを、少なくとも経験上知っています。
そして、mはμに一致する確率はかなり高いということも、経験上知っています。
しかしながら、mはμと完全に一致するとは限らないということも、経験上知っています。
これらを総合して考えると、
「mはμになる確率がかなり高く、μから離れる値ほどその確率は低くなる」
となります。
これはmの分布はμを最頻値とした確率分布を形成していると言えるのです。
さて、ここで母集団が正規分布と仮定した場合、その標本平均値はある性質を示します。
それは、標本平均値の平均値(期待値E)は母集団の平均値と一致し、分散(V)はサンプルサイズnに反比例するという性質です。
式で表しますと、
$$E(\overline{x})=E[\frac{1}{n}(x_1+x_2+…+x_n)]=\frac{1}{n}[E(x_1)+E(x_2)+…+E(x_n)]=\frac{1}{n}×nμ=μ$$
です。E(x)はxの期待値を指します。
期待値とは確率変数とその確率の積の総和で確率変数の平均値に当たります。
次に分散です。
$$V(\overline{x})=V[\frac{1}{n}(x_1+x_2+…+x_n)]=\frac{1}{n}V(x_1+x_2+…+x_n)$$
です。Vは分散です。ここで詳細はいずれ記事にしますが、和の分散はそれぞれの分散の和に等しいので
$$V(x_1+x_2+…+x_n)=V(x_1)+V(x_2)+…+V(x_n)=nV(x)$$
これは、いずれのxも同一母集団からの標本なので、すべてのVは同じ値になります。
そして
$$V(\overline{x})=\frac{1}{n^2}nV(x)=\frac{V(x)}{n}$$
となります。結果
平均値μ、分散V(x)の母集団からとられたサンプルサイズnの標本の平均値xバーは期待値はμ、分散はV(x)/nとなるのです。
特に重要なのは分散V(x)/nで、これはサンプルサイズnを大きくすると分散は小さくなり、標本平均値は、母集団の平均値を示す確率が増すことを意味します。
サンプルの数を増やすほど、正確なデータが得られるという経験値に合致する結果です。
このように、普段経験から分かることも調べてみると、きちんと数式になっていたりするものです。
「経験的にこうなる!」と訴えるよりも、「数式からこのように導けるので、こうなります」と訴えた方が、裏打ちが出来て説得力が増します。
仕事において余計な揉め事を減らすことが出来るかもしれませんので、ぜひ皆さんも調べてみてください。
コメント