こう言っても差し支えないほどに、標準偏差という値は統計学にとって欠かせないものです。
手計算で算出するには結構厄介な値ではありますが、エクセルを使用すれば簡単に算出することが出来ます。
しかしながら、エクセルには標準偏差を算出する式が主に6つ用意されています。
STDEV,DSTDEV,STDEVA
STDEVP,DSTDEVP,STDEVPA
この中で
D~はデータベースから条件抽出して計算する関数
~Aは数値以外に文字列やTrueやFalseも変数として使用できる関数
の違いがあり、結局計算方式はSTDEVとSTDEVPの2種類に大別されます。
一体どちらを使用すればいいのか。今回はその「STDEV」と「STDEVP」の違いを紹介します。
STDEVで算出される標準偏差とは?
エクセルでの標準偏差を算出する関数
=STDEV(数値1,数値2…)
は「不偏標準偏差」を算出するものです。
不偏標準偏差とは以下の式で表現される標準偏差です。
$$s=\sqrt{\frac{\sum_{i=1}^{n}{(x_i-\overline{x})^2}}{n-1}}$$
偏差平方和をn-1で割っていることが特徴となっています。
STDEVPで算出される標準偏差とは?
対して
=STDEVP(数値1,数値2…)
は当該の集団の標準偏差を算出するものです。
式は
$$s=\sqrt{\frac{\sum_{i=1}^{n}{(x_i-\overline{x})^2}}{n}}$$
であり、不偏標準偏差との違いは偏差平方和をnで割るというところです。
どちらを使えば良いの?
基本的には不偏標準偏差であるSTDEVを使った方が良いです。
その理由を説明する前にまず、不偏標準偏差と標準偏差の違い、つまりn-1で割ることと、nで割ることの違いを説明します。
・不偏標準偏差はサンプリング元の母集団の標準偏差を予測する値
・標準偏差はサンプリングされた集団そのもののばらつきを示す値
なので母集団の標準偏差を予測するには「STDEV」、集団のそのもののバラツキを知るには「STDEVP」を使用することになります。
ただ基本的には標準偏差を計算する場合は、「母集団の標準偏差が知りたい」から母集団からサンプリングして、標準偏差を計算するはずです。
ゆえに私はSTDEVを使用することを推奨しています。
ちなみにn-1で割ると母集団に対しての予測値となる理由についてですが、簡単に言うと
以下の関係が成立するためです。
$$\sum{(x_i-\overline{x})^2}≦\sum{(x_i-μ)^2}$$
μは母集団の平均です。
以上の式で示したように、集団そのものの平均から割り出した偏差平方和は母集団の平均μから割り出した偏差平方和より小さくなります。
集団の平均から割り出した偏差平方和は、他のどの値(この場合μ)から割り出した偏差平方和よりも小さくなるという特性があるためです。
なのでこのまま素直に標準偏差を計算すると
$$\sqrt{\frac{\sum{(x_i-\overline{x})^2}}{n}}≦\sqrt{\frac{\sum{(x_i-μ)^2}}{n}}$$
となり母集団の標準偏差より小さい標準偏差となってしまうのです。
故にn-1で割ることで、過小評価を補正しているのです。
まとめ
今回はエクセルでの標準偏差算出式STDEVとSTDEVPの違いを紹介しました。
基本的にはSTDEVを使用すれば問題ないですが、もしサンプリングした集団そのものの標準偏差が知りたい場合は、STDEVPを使用すれば分かります。
このように、知って使うのと知らずに使うのでは情報の精度が異なってきます。
個人的にはルールを決め、そのまま従えば効率的に仕事が進む状況が理想だと思います。
が、たまに「なぜそのルールなのか」と振り返ったり、説明する状況になったりすることがあります。
そのようなときに備えて、原理原則は抑えておいた方が良いでしょう。
コメント