なぜ不偏標準偏差をn-1で割るのか【導出過程お見せします】

バラツキ

不偏(標本)標準偏差では、母分散を推定するために偏差平方和をn-1で割ることで算出されます。

母数を推定する場合は、n-1

サンプルそのものの”ばらつき”を知る場合は、n

とだけ覚えておけば、実際に仕事で活用するうえで不便はありません。

しかしながら、中にはなぜn-1で割るのかどうしても気になる人もいるかと思います。

また、自身は気にならなくても「母数を推定するにはn-1で割るんですよ」と知らない方に言って

「なんで?」

と質問されて困った方も、またいらっしゃるはずです。

今回は、以前の記事で省いたn-1で割る理由を数式を使って解説します。

動画でも解説しています。

書籍で勉強する際はこちらがおススメです。

統計学がうまく使えなかった人はコチラ統計学を活かす 解析しやすい数値化のノウハウ

スポンサーリンク

nではなぜ標準偏差を推定出来ないのか

そもそも、なぜnで割ったら母数を推定出来ないのでしょうか?

その理由は

算術平均による偏差の平方和は、他のいかなる偏差の平方和よりも小さくなる

という性質のためです。

サンプルの平均値と元の母集団μの平均値は当然異なる可能性があります。

故に平均値の性質から以下の関係が成り立ってしまうのです。

$$\sum{(x_i-μ)^2}≧\sum{(x_i-\overline{x})^2}$$

偏差平方和をサンプルサイズで割って平方根をとるものが標準偏差である以上、この関係からnで割った場合サンプルの標準偏差は母集団の標準偏差より過小に見積もってしまうのです。

$$\sqrt{\frac{1}{n}\sum{(x_i-μ)^2}}≧\sqrt{\frac{1}{n}\sum{(x_i-\overline{x})^2}}$$

さてここまでで、サンプルの標準偏差が正しく母集団の標準偏差を推定するためには、何かしらの補正が必要であると分かって頂けると思います。

しかしながら、ここまでではまだn-1である必要性が分かりません

なぜn-1なのか。それをここから説明していきます。

スポンサーリンク

n-1を補正値として用いる理由

標準偏差と銘打っていますが、基本的に分散σ2を中心にここから話を進めていきます。

その方が、平方根が入らず数式的にも分かりやすいためです。

平均値のばらつきが足りない

先述したように、サンプルから求めた標準偏差(分散)はnで割る場合は、母集団から求めた標準偏差(分散)より小さくなります。

$$\frac{\sum{(x_i-μ)^2}}{n}≧\frac{\sum{(x_i-\overline{x})^2}}{n}$$

これは言ってしまえば、サンプルから求めた標準偏差には何かのばらつきが欠けている、とも言えます。

つまりその何かが分かって、それを加えてあげればイコールになるのです。

何が欠けているのか?

それは、平均値のばらつきです。

μは母集団における平均値でばらつきません

一方サンプルの平均値ばらつきます

サンプルを採取するたびに平均値が異なるというのは、アナタも経験があるでしょ?

その平均値のばらつきの情報が入っていないので、サンプルから計算された分散や標準偏差は小さくなってしまうのです。

そして、平均値のばらつきはN[μ,σ2/n]の正規分布に従います。

μは元の母集団の平均値で、σは元の母集団の標準偏差です。

つまり、式で表すと、

$$\frac{\sum{(x_i-μ)^2}}{n}=\frac{\sum{(x_i-\overline{x})^2}}{n}+\frac{σ^2}{n}$$

こうなるわけです。

これを、解いていけば良いわけです。

N-1になるのか計算しよう

実際に計算して、分母がN-1になるのか確認してみましょう。

まずσは母集団の標準偏差なので、当然

$$σ^2=\frac{\sum{(x_i-μ)^2}}{n}$$

になります。故に

$$σ^2=\frac{\sum{(x_i-\overline{x})^2}}{n}+\frac{σ^2}{n}$$

を解いていくことになります。

σ2が右辺と左辺に存在しますので、左辺の方に集めちゃいましょう。

$$σ^2-\frac{σ^2}{n}=\frac{\sum{(x_i-\overline{x})^2}}{n}$$

そして、左辺を以下のように変形します。

$$σ^2(1-\frac{1}{n})=\frac{\sum{(x_i-\overline{x})^2}}{n}$$

$$σ^2(\frac{n-1}{n})=\frac{\sum{(x_i-\overline{x})^2}}{n}$$

そして両辺にn/(n-1)をかけてやると、

$$σ^2(\frac{n-1}{n})(\frac{n}{n-1})=(\frac{n}{n-1})\frac{\sum{(x_i-\overline{x})^2}}{n}$$

$$σ^2=\frac{\sum{(x_i-\overline{x})^2}}{n-1}$$

これでおしまいです。

スッキリしました?

スポンサーリンク

まとめ

サンプルから母集団の標準偏差を推定するには、分母をnではなく、n-1で割る必要があります。

そして、その理由はサンプルから計算した標準偏差は、そのままではサンプルの平均値のばらつきが抜けているからです。

それを加算してやると、きっちりn-1で割る形になるのです。

正直、こんな事知らなくても仕事には支障は出ません。

ですが、もしアナタが標準偏差を社内で教える立場になったとき、これを知っていてきっちり説明出来れば、

「コイツの統計の知識は、一味違うぞ!」

となって、アナタが今後統計の説明をする際に、耳を傾けやすくなってくれるはずです。

もし、このような質問をされた際には、ぜひ活用してみて下さい。

スポンサーリンク

統計学をうまく使うために・・・

「先ほど紹介された手法を使って業務改善を行うぞ!」

と今から試そうとされているアナタ。

うまくいけば問題ありませんが、そうでない場合はコチラ

統計学を活かす 解析しやすい数値化のノウハウ

統計学の知識を持っていてもうまくいかない場合というのは、そもそも相対する問題がうまく数値化、評価が出来ない場合というのが非常に多いのです。

私もこれまでそのような場面に何度もぶち当たり、うまく解析/改善が出来なかったことがありました。

このnoteはそんな私がどのように実務で数値化をし、分析可能にしてきたかのノウハウを公開したものです。

どんな統計学の本にも載っていない、生々しい情報満載です。

また、私の知見が蓄積されたら都度更新もしていきます!!

買い切りタイプなのでお得です。

ぜひお求めくださいな。

スポンサーリンク
バラツキ 標準偏差
スポンサーリンク
シグマアイ-仕事で使える統計を-

コメント