不偏(標本)標準偏差では、母分散を推定するために偏差平方和をn-1で割ることで算出されます。
母数を推定する場合は、n-1
サンプルそのものの”ばらつき”を知る場合は、n
とだけ覚えておけば、実際に仕事で活用するうえで不便はありません。
しかしながら、中にはなぜn-1で割るのかどうしても気になる人もいるかと思います。
また、自身は気にならなくても「母数を推定するにはn-1で割るんですよ」と知らない方に言って
「なんで?」
と質問されて困った方も、またいらっしゃるはずです。
今回は、以前の記事で省いたn-1で割る理由を数式を使って解説します。
動画でも解説しています。
書籍で勉強する際はこちらがおススメです。
nではなぜ標準偏差を推定出来ないのか
そもそも、なぜnで割ったら母数を推定出来ないのでしょうか?
その理由は
算術平均による偏差の平方和は、他のいかなる偏差の平方和よりも小さくなる
という性質のためです。
サンプルの平均値と元の母集団μの平均値は当然異なる可能性があります。
故に平均値の性質から以下の関係が成り立ってしまうのです。
$$\sum{(x_i-μ)^2}≧\sum{(x_i-\overline{x})^2}$$
偏差平方和をサンプルサイズで割って平方根をとるものが標準偏差である以上、この関係からnで割った場合サンプルの標準偏差は母集団の標準偏差より過小に見積もってしまうのです。
$$\sqrt{\frac{1}{n}\sum{(x_i-μ)^2}}≧\sqrt{\frac{1}{n}\sum{(x_i-\overline{x})^2}}$$
さてここまでで、サンプルの標準偏差が正しく母集団の標準偏差を推定するためには、何かしらの補正が必要であると分かって頂けると思います。
しかしながら、ここまでではまだn-1である必要性が分かりません。
なぜn-1なのか。それをここから説明していきます。
n-1を補正値として用いる理由
標準偏差と銘打っていますが、基本的に分散σ2を中心にここから話を進めていきます。
その方が、平方根が入らず数式的にも分かりやすいためです。
平均値のばらつきが足りない
先述したように、サンプルから求めた標準偏差(分散)はnで割る場合は、母集団から求めた標準偏差(分散)より小さくなります。
$$\frac{\sum{(x_i-μ)^2}}{n}≧\frac{\sum{(x_i-\overline{x})^2}}{n}$$
これは言ってしまえば、サンプルから求めた標準偏差には何かのばらつきが欠けている、とも言えます。
つまりその何かが分かって、それを加えてあげればイコールになるのです。
何が欠けているのか?
それは、平均値のばらつきです。
μは母集団における平均値でばらつきません。
一方サンプルの平均値はばらつきます。
サンプルを採取するたびに平均値が異なるというのは、アナタも経験があるでしょ?
その平均値のばらつきの情報が入っていないので、サンプルから計算された分散や標準偏差は小さくなってしまうのです。
そして、平均値のばらつきはN[μ,σ2/n]の正規分布に従います。
μは元の母集団の平均値で、σは元の母集団の標準偏差です。
つまり、式で表すと、
$$\frac{\sum{(x_i-μ)^2}}{n}=\frac{\sum{(x_i-\overline{x})^2}}{n}+\frac{σ^2}{n}$$
こうなるわけです。
これを、解いていけば良いわけです。
N-1になるのか計算しよう
実際に計算して、分母がN-1になるのか確認してみましょう。
まずσは母集団の標準偏差なので、当然
$$σ^2=\frac{\sum{(x_i-μ)^2}}{n}$$
になります。故に
$$σ^2=\frac{\sum{(x_i-\overline{x})^2}}{n}+\frac{σ^2}{n}$$
を解いていくことになります。
σ2が右辺と左辺に存在しますので、左辺の方に集めちゃいましょう。
$$σ^2-\frac{σ^2}{n}=\frac{\sum{(x_i-\overline{x})^2}}{n}$$
そして、左辺を以下のように変形します。
$$σ^2(1-\frac{1}{n})=\frac{\sum{(x_i-\overline{x})^2}}{n}$$
$$σ^2(\frac{n-1}{n})=\frac{\sum{(x_i-\overline{x})^2}}{n}$$
そして両辺にn/(n-1)をかけてやると、
$$σ^2(\frac{n-1}{n})(\frac{n}{n-1})=(\frac{n}{n-1})\frac{\sum{(x_i-\overline{x})^2}}{n}$$
$$σ^2=\frac{\sum{(x_i-\overline{x})^2}}{n-1}$$
これでおしまいです。
スッキリしました?
まとめ
サンプルから母集団の標準偏差を推定するには、分母をnではなく、n-1で割る必要があります。
そして、その理由はサンプルから計算した標準偏差は、そのままではサンプルの平均値のばらつきが抜けているからです。
それを加算してやると、きっちりn-1で割る形になるのです。
正直、こんな事知らなくても仕事には支障は出ません。
ですが、もしアナタが標準偏差を社内で教える立場になったとき、これを知っていてきっちり説明出来れば、
「コイツの統計の知識は、一味違うぞ!」
となって、アナタが今後統計の説明をする際に、耳を傾けやすくなってくれるはずです。
もし、このような質問をされた際には、ぜひ活用してみて下さい。
今すぐ、あなたが統計学を勉強すべき理由
この世には、数多くのビジネススキルがあります。
その中でも、極めて汎用性の高いスキル。
それが統計学です。なぜそう言い切れるのか?
それはビジネスというのは、結局お金のやり取りであり、必ず数字が絡んできます。
そして数字を扱うスキルこそが統計学だからです。
故に一口に統計学といっても、
営業、マーケティング、研究開発、品質管理、工程管理、生産管理.etc
これら全てで使う事が出来るのです。
現に私は前職は品質管理、現職は研究開発職なのですが、面接のときに
「品質管理時に活用した、統計の知識を研究開発にも活かせます」
とアピールして職種をうまく切り替える事が出来ました。
そして、もし始めるなら今から勉強を始めましょう。
なんなら、今すぐこのページを閉じて本格的に勉強を開始するべきです。
なぜなら、このような『スキル』は20代でもっともキャリアアップに繋がるからです。
30代ならいざ知らず、40代になると求められるのはこれまでの業務を遂行してきた経験や人脈なのです。
これが無いとある一定以上のキャリアアップは望めませんし、40代以降のハイクラスの転職先も望めません。
20代のうちは成果を結び付けるためにこのスキルが大いに役立ちますが、年を経るごとに求められる働き方が変わるのでスキルの実績への寄与が減ってしまうのです。
なので、後からやればいいやと後回しにすると機を逸してしまう可能性が高いです。
ちなみにこれから統計学を学習をするというのであれば、ラーニングピラミッドというものを意識すると効率的です。
私自身、インプットだけでなく、youtubeや職場でアウトプットしながら活用する事で統計リテラシーを日々向上させていっています。
ぜひ、アナタも当ブログやyoutubeチャンネルで統計リテラシーを上げて、どこでも通用するビジネスパーソンになりましょう
コメント