標準偏差の代わりの値

統計学はばらつきの学問であり、その中で最も代表的な指標は標準偏差です。

しかしながら、標準偏差は扱う上でいくつかの制限があります。

今回はそのような制限下で標準偏差が使用出来ない場合、代わりにどのようにバラツキを表現すべきか解説いたします。

標準偏差の問題点

標準偏差を扱う上で

・相応のサンプルサイズが必要

・外れ値に弱い

以上2点の問題点が挙げられます。

まずサンプルサイズが小さいと、得られる標準偏差の信頼性が弱くなります

サンプルサイズN=15の場合、下限にσ×0.75、上限にσ×1.67触れる可能性があります。

15以下だとこちらのグラフ(縦軸は分散なので、標準偏差の場合は平方根を取ってください)が示すように加速度的に信頼区間が広がっていきます。

このように標準偏差では一定数(30以上)のサンプルが必須となります。

また外れ値にも弱いです。

元々標準偏差は偏差(を平方した値)を足し合わせたものをサンプルサイズで割るという、平均値と同様の導出方法をとっています(このような値をRMS(平方平均の平方根)といいます)。

ご存知だと思いますが、平均値は外れ値が入っていると(特にサンプルサイズが小さい場合)値をゆがめられるという性質を有しています。

計算方法が似通った標準偏差でも同様の現象が起きるという訳です。

四分位範囲とはなにか

このように標準偏差はいつでも扱えるという性質のものではありません。

しかしながら、サンプルサイズが小さい場合でもなんとかバラツキを表現したいというシチュエーションはよくあります。

その場合はどうするべきか。

ここで思い出していただきたいのですが、以前平均値の代わりに中央値を使うと外れ値の影響を受けにくいというお話をさせて頂きました。

このバラツキの場合も、「中央値」のような値があればこの問題が解決出来るはずです。

さてそのような都合のいい値があるのか?

それがあるのです。

その名は四分位範囲

実は以前にボックスプロットを紹介した際に紹介したあいつです。

四分位範囲は第一四分位数と第三四分位数の差です。

この図の箱に当たる部分が四分位範囲です。

実は中央値も第一四分位数と第三四分位数の仲間です(中央値は第二四分位数です)。

中央値をはじめとする四分位数は外れ値の影響を受けにくいです。

例えば

1,2,3,4,5,100

という集団があった場合、四分位数はこの集団の25%、50%、75%の値をとります。

この集団の「100」が「6」になっても「10,000」になってもそれぞれの四分位数は変わらないという訳です。

ちなみにこの集団の平均とばらつきはそれぞれ

平均値:19.2 中央値:3.5

標準偏差:39.6 四分位範囲:2.5

となります。どうでしょう。中央値と四分位範囲の方が、よりよくこの集団の真ん中とバラツキを表現できていると思いませんか?

このように四分位範囲は頑健性(外れ値に左右されにくいこと)が非常に強い値となっています。

ただし、四分位範囲はたった2つの四分位数しか反映できていない数値であること、また標準偏差がもつ±3σ内にデータの99.7%が入るといった便利な性質はありません。

このように四分位範囲は決して万能な値ではありません。あくまで標準偏差が使えない状況における代用と考えるべきです。

しかしながら、標準偏差が使えない場合に他の手段を持っているか否かは非常に重要です。

ぜひ皆さん使ってみてください。

 

バラツキ
スポンサーリンク
シグマアイ-仕事で使える統計を-

コメント