製品の真のスペックを知るためには、データを沢山取って平均値を出したり、標準偏差を出したりして、母集団の真値(いわゆる母数)を得る事が重要です。
しかしながら、ただ単に平均値や標準偏差を算出しても、その値だってフラフラばらつくのですから、それだけでは具合が悪いです。
という事で重要になってくる手法が区間推定なわけです。
以前平均値の区間推定の話はしたのですが、まだばらつきに関しての推定の話はしていません。
平均値も重要ですが、それと同じくらいばらつきがどの程度のばらつきに収まるのかというのも、非常に重要な事です。
ということで、今回は分散の区間推定について解説します。
これを覚えれば、
$$A < σ < B$$
といった標準偏差がどの程度の範囲に収まるのか分かるようになります。
youtubeでもアップしています。
ばらつきの推定を考える
なぜ分散の推定なのか?
まず、説明に入る前に触れておきますが、基本的にばらつきの推定は分散σ2を中心して行います。
標準偏差ではありません。
単位が二乗になったりするので、使う側としては分散ではなく標準偏差で行いたいところ。
ですが、それは無理なのです。
というのも、標準偏差同士では足したり引いたりといった計算が成り立たないのです。
そういった四則演算が成り立たない数字では、やはりこういった数学的処理は難しいのです。
逆に分散という値が、単位が2乗でありながら統計学において重要とされる要因もここにあります。
分散は四則演算が成り立ちますから、数学的に処理する上では非常に便利なのです。
それでも、標準偏差の推定をしたい!
でも、やはり標準偏差の区間を知りたいという声は多いと思います。
仕事におけるツールとして、使いやすいのは分散より標準偏差です。
なぜなら、平均値と組み合わせる事で標準正規分布表が使えるので、規格を決めたり、有意差を予測したりするのに非常に重宝するからです。
ですが、ご安心を。
分散の推定を行いますが、最終的には標準偏差の形に直す事は簡単です。
基本的に分散の区間推定の形はこう↓
$$A^2 < σ^2 < B^2$$
分散の上限下限は当然分散なのですから、分散の平方根である標準偏差を割り出すには、全部平方根をとってやればいいのです。つまり
$$A < σ < B$$
としてやれば、結局標準偏差の区間推定にもっていけます。
ですから、安心して分散の区間推定をして頂ければOKです。
分散の区間推定をしよう
推定の順序
推定は以下の手順で行います。
1:統計量を算出(今回は分散)
2:統計量を標準化する
3:95%信頼区間を求める
4:式変形する
大きな流れは、平均値の推定と同じです。使用する分布や標準化の式が異なるだけです。
分散の推定をやってみる
それでは実際にやってみましょう。
例を用いながら行っていきます。今回も平均値の時と同様に以下のデータを使っていきます。
まず、このデータの分散を算出します。
とりあえず、エクセルの
=VAR.S()
で不偏分散を算出すると、
$$s^2=9.12$$
になりました。
そして、母分散σ2と不偏分散s2の比X2はカイ二乗分布に従うという性質を利用します。
$$X^2=\frac{(n-1)s^2}{σ^2}$$
この分布は非対称なので、上側と下側の2.5%点が異なる値を示します。
カイ二乗分布表を使ってもOKですが、エクセル関数
=CHISQ.INV(確率,自由度)
を使った方が早いです。
今回の場合、自由度は7(=8-1)なので、
=CHISQ.INV(0.025,7)=1.68
=CHISQ.INV(0.975,7)=16.0
になります。よって
$$1.68 < \frac{(n-1)s^2}{σ^2} < 16.0$$
$$1.68 < \frac{7×9.12}{σ^2} < 16.0$$
になります。この区間内にデータの95%が収まります。
そして最後はこの式を整理すると、
$$\frac{7×9.12}{16.0} < σ^2 < \frac{7×9.12}{1.68}$$
$$3.98 < σ^2 < 37.78$$
となります。
標準偏差にしたい場合は、この不等式の全体の平方根をとってやればいいのです。つまり
$$\sqrt{3.98} < \sqrt{σ^2} < \sqrt{37.78}$$
$$2.00 < σ < 6.15$$
となります。これでばらつきの推定をする事が出来ました。
まとめ
分散の区間推定並びに標準偏差の推定を行いました。
ポイントとしては
・不偏分散を算出
・X2を算出
・カイ二乗分布における95%信頼区間を算出
・最後に式を整理する
この4点です。
エクセル関数 =CHISQ.INV()を用いれば、それほど難しい処理ではありません。
カイ二乗分布が非対称なので、0.025と0.975それぞれで95%信頼区間の値を出すという事さえ押さえておけば問題なくいけるでしょう。
ぜひ使用してみて下さい。
コメント