標準偏差が使えない時は、四分位偏差を代用しよう【外れ値に強いぞ】

エクセル

統計学はばらつきの学問であり、その中で最も代表的な指標は標準偏差です。

正規分布を決定づける指標の一つなので、正規分布を中心とした様々な手法で活用されるためです。

しかしながら、標準偏差も万能ではありません。

実は弱点も多いので、なんでもかんでもばらつきを標準偏差で表現していると、痛い目に会ってしまいます。

今回は

・標準偏差の問題点

・標準偏差の代用となる数値

この2点について解説していきます。

動画でも紹介しています。

スポンサーリンク

標準偏差の問題点

沢山のサンプルサイズが必要

まず、第一の問題点として、サンプルサイズが大量に必要と言う問題があります、

こちらの図をご覧くださいませませ。

これは、標準偏差における自由度(N-1)とカイ二乗検定の上下限値の比の関係です。

すごくざっくり言うと、サンプルサイズの増大に伴う、標準偏差の精度を表した図です。

縦軸が小さくなると、精度が高いと言えます。

グラフを見てもらいますと、サンプルサイズがおよそ30ぐらいで精度がほぼ横ばいになってきています。

つまり、サンプルサイズN=30はないと標準偏差は精度が出ないと言えます。

詳細はこちらの記事を参照ください。

先程のグラフの成り立ちについても、きちんと解説していますので。

要するに、サンプルサイズが揃っていないと標準偏差は機能しないという事です。

もし、サンプルサイズが30を下回る場合は、標準偏差の使用は控えた方が良いです。

外れ値に弱い

第二の弱点として、外れ値に弱い点が挙げられます。

標準偏差は平たく言えば、偏差という値の平均値みたいなもんです(平方平均の平方根:RMSと言われる値)。

平均値は基本的に全ての値を足し合わせて、足した個数で割るので、極端に大きな値、小さな値が混入していると、その外れた値に引っ張られてしまうという特性があります。 

このあたりは、多くのサンプルサイズが必要と言う、先ほどの話ともつながってきます。

サンプルサイズが多いと、一つや二つの外れ値の影響が無視できるほど小さくなるためです。

なら、外れ値を外せばOKという話になりそうですが、どうやって外れ値と判断しましょうか?

一番基本的な外れ値の判断方法は、正規分布と仮定した上で、平均値±3×標準偏差から外れた値を除外するというモノです。

ですが、そもそも外れ値で歪んだ標準偏差を使って外れ値を外すなんて、話が堂々巡りしてしまってます。

当然正しく判断出来るわけがないのです。

このように、外れ値が存在していそうなときには標準偏差の使用を控えた方が良いです。

スポンサーリンク

標準偏差の代わりの値 四分位偏差

四分位数とは?

このように標準偏差はいつでも扱えるという性質のものではありません。

しかしながら、サンプルサイズが小さい場合でもなんとかバラツキを表現したいというシチュエーションはよくあります。

その場合はどうするべきか。

実は以前、平均値の代わりに中央値を使うと外れ値の影響を受けにくい、というお話をさせて頂きました。

このバラツキの場合も、中央値のような値があればこの問題が解決出来るはずです。

さてそのような都合のいい値があるのか?

ありますよ。

四分位数を応用した、四分位偏差という指標を使えばOKです。

四分位偏差を理解する為に、まず四分位数を理解するのが肝要です。

四分位数とは、データの集団を小さい順(もしくは大きい順)に並べたときに、その集団を四分割にする値を指します。

以下のように、10個の値からなる集団を考えてみます。

10個の値を2分割する値は5と6の間に当たる、5.5です。

これが中央値になります。

そして、1~5と6~100の2つの集団を更にそれぞれ2分割する値が

1~5の場合:3

6~100の場合:8

になります。

この小さい方の集団を2分割する値を、第一四分位数Q1と言います。

一方大きい方の集団を2分割する値を、第三四分位数Q3と言います。

これらの四分位数を利用してやることで、標準偏差に変わる値を算出することが出来ます。

四分位偏差について

四分位数である、Q3とQ1を用いて

$$IQR=Q3-Q1$$

で表されるIQRを四分位範囲と言います。

この値は、データのバラツキを表現します。

この四分位範囲を更に

$$四分位偏差=\frac{IQR}{2}$$

のように、2で割った値が四分位偏差になります。

Q3とQ1はいつでも、中央値に対して線対称の位置づけではないので、一度四分位範囲を出してから2等分してやるわけです。

先程の例で算出してみましょう。

Q1=3、Q3=8なので、

$$四分位偏差=\frac{Q3-Q1}{2}=\frac{8-3}{2}=2.5$$

となります。とても簡単でしょ?

ちなみに、データ量が膨大になった場合には、エクセルの

=QUARTILE.INC(データ範囲,0~4)

ただし、0:最小値、1:Q1、2:中央値、3:Q3、4:最大値

で簡単に算出出来ます。

四分位偏差の大きな特徴は、外れ値に強いという点です。

先程の図で示したように、1~9の集団に100が混ざっていましたが、中央値同様Q1とQ3もブレている様子がありません。

100の部分が、10でも、1000でも、1000000000であろうとも四分位偏差は全く同じ値のままです。

このように、四分位偏差を使えば外れ値に惑わされることなく、ばらつきを表現し、比較して利することが出来ます。

四分位偏差の欠点

このようにとても便利そうな四分位偏差ですが、当然こいつにも弱点があります。

それは、数学的に取り扱えないという事です。

つまり、標準偏差のように、分布の代表値とかではないので、確率的にどうこうと予測するのには活用出来ないのです。

四分位偏差で可能なのは、外れ値やサンプルサイズが小さい時の集団のばらつきの比較くらいです。

標準偏差の代わりに正規分布の代表値とかには、間違って使わないように注意しましょう。

スポンサーリンク

まとめ

標準偏差は正規分布の指標の一つでもあるので、非常に活用範囲の広い値ではありますが、弱点もあります。

サンプルサイズが沢山いるのと、外れ値に弱いという点です。

これを回避して、ばらつきを表現、比較したい場合は四分位偏差を使いましょう。

中央値と同様、外れ値に強いという性質があります。

また、この四分位偏差を覚えておくと、箱ひげ図の理解も非常に早くなります。

データが足りない場面でも、正しい分析をするための武器として、扱えるようになりましょう。

スポンサーリンク

今すぐ、あなたが統計学を勉強すべき理由

この世には、数多くのビジネススキルがあります。

その中でも、極めて汎用性の高いスキル。

それが統計学です。なぜそう言い切れるのか?

それはビジネスというのは、結局お金のやり取りであり、必ず数字が絡んできます。

そして数字を扱うスキルこそが統計学だからです。

故に一口に統計学といっても、

営業、マーケティング、研究開発、品質管理、工程管理、生産管理.etc

これら全てで使う事が出来るのです。

現に私は前職は品質管理、現職は研究開発職なのですが、面接のときに

「品質管理時に活用した、統計の知識を研究開発にも活かせます」

とアピールして職種をうまく切り替える事が出来ました。

そして、もし始めるなら今から勉強を始めましょう。

なんなら、今すぐこのページを閉じて本格的に勉強を開始するべきです。

なぜなら、このような『スキル』は20代でもっともキャリアアップに繋がるからです。

30代ならいざ知らず、40代になると求められるのはこれまでの業務を遂行してきた経験や人脈なのです。

これが無いとある一定以上のキャリアアップは望めませんし、40代以降のハイクラスの転職先も望めません。

20代のうちは成果を結び付けるためにこのスキルが大いに役立ちますが、年を経るごとに求められる働き方が変わるのでスキルの実績への寄与が減ってしまうのです。

なので、後からやればいいやと後回しにすると機を逸してしまう可能性が高いです。

ちなみにこれから統計学を学習をするというのであれば、ラーニングピラミッドというものを意識すると効率的です。

私自身、インプットだけでなく、youtubeや職場でアウトプットしながら活用する事で統計リテラシーを日々向上させていっています。

ぜひ、アナタも当ブログやyoutubeチャンネルで統計リテラシーを上げて、どこでも通用するビジネスパーソンになりましょう

コメント