不偏(標本)標準偏差では、母分散を推定するために偏差平方和をn-1で割ることで算出されます。
母数を推定する場合は、n-1
サンプルそのものの”ばらつき”を知る場合は、n
とだけ覚えておけば、実際に仕事で活用するうえで不便はありません。
しかしながら、中にはなぜn-1で割るのかどうしても気になる人もいるかと思います。
また、自身は気にならなくても「母数を推定するにはn-1で割るんですよ」と知らない方に言って
「なんで?」
と質問されて困った方も、またいらっしゃるはずです。
今回は、以前の記事で省いたn-1で割る理由を数式を使って解説します。
動画でも解説しています。
書籍で勉強する際はこちらがおススメです。
統計学がうまく使えなかった人はコチラ⇒統計学を活かす 解析しやすい数値化のノウハウ
nではなぜ標準偏差を推定出来ないのか
そもそも、なぜnで割ったら母数を推定出来ないのでしょうか?
その理由は
算術平均による偏差の平方和は、他のいかなる偏差の平方和よりも小さくなる
という性質のためです。
サンプルの平均値
故に平均値の性質から以下の関係が成り立ってしまうのです。
$$\sum{(x_i-μ)^2}≧\sum{(x_i-\overline{x})^2}$$
偏差平方和をサンプルサイズで割って平方根をとるものが標準偏差である以上、この関係からnで割った場合サンプルの標準偏差は母集団の標準偏差より過小に見積もってしまうのです。
$$\sqrt{\frac{1}{n}\sum{(x_i-μ)^2}}≧\sqrt{\frac{1}{n}\sum{(x_i-\overline{x})^2}}$$
さてここまでで、サンプルの標準偏差が正しく母集団の標準偏差を推定するためには、何かしらの補正が必要であると分かって頂けると思います。
しかしながら、ここまでではまだn-1である必要性が分かりません。
なぜn-1なのか。それをここから説明していきます。
n-1を補正値として用いる理由
標準偏差と銘打っていますが、基本的に分散σ2を中心にここから話を進めていきます。
その方が、平方根が入らず数式的にも分かりやすいためです。
平均値のばらつきが足りない
先述したように、サンプルから求めた標準偏差(分散)はnで割る場合は、母集団から求めた標準偏差(分散)より小さくなります。
$$\frac{\sum{(x_i-μ)^2}}{n}≧\frac{\sum{(x_i-\overline{x})^2}}{n}$$
これは言ってしまえば、サンプルから求めた標準偏差には何かのばらつきが欠けている、とも言えます。
つまりその何かが分かって、それを加えてあげればイコールになるのです。
何が欠けているのか?
それは、平均値
μは母集団における平均値でばらつきません。
一方サンプルの平均値
サンプルを採取するたびに平均値が異なるというのは、アナタも経験があるでしょ?
その平均値のばらつきの情報が入っていないので、サンプルから計算された分散や標準偏差は小さくなってしまうのです。
そして、平均値のばらつきはN[μ,σ2/n]の正規分布に従います。
μは元の母集団の平均値で、σは元の母集団の標準偏差です。
つまり、式で表すと、
$$\frac{\sum{(x_i-μ)^2}}{n}=\frac{\sum{(x_i-\overline{x})^2}}{n}+\frac{σ^2}{n}$$
こうなるわけです。
これを、解いていけば良いわけです。
N-1になるのか計算しよう
実際に計算して、分母がN-1になるのか確認してみましょう。
まずσは母集団の標準偏差なので、当然
$$σ^2=\frac{\sum{(x_i-μ)^2}}{n}$$
になります。故に
$$σ^2=\frac{\sum{(x_i-\overline{x})^2}}{n}+\frac{σ^2}{n}$$
を解いていくことになります。
σ2が右辺と左辺に存在しますので、左辺の方に集めちゃいましょう。
$$σ^2-\frac{σ^2}{n}=\frac{\sum{(x_i-\overline{x})^2}}{n}$$
そして、左辺を以下のように変形します。
$$σ^2(1-\frac{1}{n})=\frac{\sum{(x_i-\overline{x})^2}}{n}$$
$$σ^2(\frac{n-1}{n})=\frac{\sum{(x_i-\overline{x})^2}}{n}$$
そして両辺にn/(n-1)をかけてやると、
$$σ^2(\frac{n-1}{n})(\frac{n}{n-1})=(\frac{n}{n-1})\frac{\sum{(x_i-\overline{x})^2}}{n}$$
$$σ^2=\frac{\sum{(x_i-\overline{x})^2}}{n-1}$$
これでおしまいです。
スッキリしました?
まとめ
サンプルから母集団の標準偏差を推定するには、分母をnではなく、n-1で割る必要があります。
そして、その理由はサンプルから計算した標準偏差は、そのままではサンプルの平均値のばらつきが抜けているからです。
それを加算してやると、きっちりn-1で割る形になるのです。
正直、こんな事知らなくても仕事には支障は出ません。
ですが、もしアナタが標準偏差を社内で教える立場になったとき、これを知っていてきっちり説明出来れば、
「コイツの統計の知識は、一味違うぞ!」
となって、アナタが今後統計の説明をする際に、耳を傾けやすくなってくれるはずです。
もし、このような質問をされた際には、ぜひ活用してみて下さい。
コンテンツ紹介
昨今機械学習やディープラーニングなど、データを扱うための知識の重要度は日々増していっています。
そんな最先端のスキルを使いこなすには、土台となる統計学の知識が必要不可欠です。
しかしながら、統計学は本で読んでも何とか理論は理解できてもそこからどのように実務に活かしたら良いのか分からない。そんな机上と現実のギャップが凄まじい学問です。
そんな机上と現実のギャップを埋めるために、私は当サイトをはじめ様々なコンテンツを展開しています。
youtubeでは登録者1万人の統計学のチャンネルを運用しています。
動画投稿だけでなく、週2回のコメントに来た質問への回答配信も行っているので気になる方はどしどし質問をお寄せください。
youtubeでは無料動画だけでなく、有料のメンバーシップ限定動画も運用しています。
メンバーシップ登録リンク(押しただけで登録はされないので、気軽にクリックしてください)
エクセルやJAMOVIといった無料で使える統計ツールの実際の使い方。そして無料動画では敷居の高い(というよりマニアックゆえに再生数が見込めない(笑))解説動画をアップしています。
本を読んで実際に分析してみようと思ったけど、どうもうまくいかなかった。本では見かけない、あるいは難しすぎて扱えない手法があったという方。ぜひ一度ご参加ください(動画のリクエストがあれば反映させます)
「そうは言われても、うちのデータは統計学じゃ分析出来ないよ」
そういう方もいらっしゃると思います。私の経験上、そういったデータ分析が出来ない状況の一つとして量的変数として目の前の現象を扱えていないというものがあります。
私のnoteでは、過去私が製品開発を行う上で実践した分析しやすい数値の測定方法を公開しています。
私が開発活動する上で創意工夫を凝らして編み出してきたアイデアの数々を公開しています(私の知見が増えたら更新していきます)。本やネットではまず載っていません。うまい測定方法のアイデアが浮かばないという方はぜひこちらをご覧ください。
「いや、その前に使える手法を体系的に学びたいんだけど」
そんな方には、udemyの講座を推奨します。
初歩的な標準偏差から、実験計画法、多変量解析まで、実際に私が実用する上で本当に使用したことがある手法に絞って順序立てて解説しています。
どの手法が結局使えますのん?という方はぜひこちらをお求めください。
こんな感じで、様々なコンテンツを展開しています。
今後は品質工学や品質管理に重点を絞ったコンテンツなども発信していきます。
ぜひリクエストがありましたら、それらも反映させていきますのでまずはお気軽にご意見くださいな。
コメント