以前紹介した箱ひげ図(ボックスプロット)は分布同士を比較出来る、非常に有用なツールです。
・中央値と平均値のズレ(=分布の中央のズレ)
・箱のサイズによるばらつきの比較
・外れ値の有無
等々、豊富な情報を1枚で提供してくれます。
しかし、私個人としては一つ気がかりな事があるのです。
それは
何%外れた値を外れ値にしてんの?
ということです。
この情報、実はネットで検索したり、本を読んだりしても引っ掛からないのです。
少なくとも私は探し当てることが出来ませんでした。
このような状態では、もし上司が箱ひげ図を知らない場合
「この外れ値って何%の確率で発生するの?」
と質問されると言い淀んでしまいます。
折角良いデータになったとしても、これでは却下されてしまいます。
箱ひげ図の代用となるグラフは中々思いつかないので、これでは困ってしまいます。
ということで、今回は箱ひげ図を標準正規分布表と比較することで、外れ値の発生確率を算出してみました。
結論としては、なんと3σとほぼ同等という結果になったのです。
このような情報が有るのと無いとでは、やはり説得力の重みが大分違ってきます。
それでは、いかにして3σと一致したのか一緒に紐解いていきましょう。
箱ひげ図(ボックスプロット)の外れ値の確率を算出しよう
箱ひげ図のおさらい
箱ひげ図の箱は値を小さい順に並べたときの、下から25%の位置(第一四分位値)から75%(第三四分位値)までの位置の長さに相当します。
つまり箱の中央からプラス方向とマイナス方向に25%ズレた位置が箱のサイズとなるのです。
これが今回のミソになります。
標準正規分布と箱ひげ図を重ねてみよう
例えば標準正規分布を、箱ひげ図に置き換えるとどのようになるでしょう。
・中央値が正規分布の中心(=平均値)と一致します。
・第三四分位値は右側に25%の値が収まるZσと一致します(第一四分位値は左側)
以下のようなイメージを持つと分かりやすいと思います。
ここで、標準正規分布表の出番です。
とりあえず、片側だけで考えていきます。
正負いずれも同じことですから。
表の25%(つまり0.25)に相当するz値を探ります。
z=0.67か0.68ってところですね。
とりあえず小さめの確率である0.67を選んでおきます。
つまり0.67σが第三四分位値と第一四分位値にほぼ一致するという訳になります。
四分位+1.5×IQRの確率は?
外れ値は
$$75\%点(25\%点)+(-)1.5×IQR$$
より外側の値と箱ひげ図では定義しています。
IQRとは箱のサイズです。
まず先述の確認結果から75%を0.67になります。
次にIQRを算出しましょう。
25%~75%点までの長さなので、0.67の2倍1.34がIQRになります。
$$IQR=0.67×2=1.34$$
よって外れ値にならない領域は
$$z=75\%点(25\%点)+(-)1.5×IQR=0.67+1.5×1.34=2.67$$
となります。
つまり±2.67σが、箱ひげ図が表す通常の分布範囲ということになります。
先述したように3σに近い値となっています。
外れ値が発生する確率は?
それでは最後に外れ値が発生する確率を算出しましょう。
Z=2.67に相当する確率を標準正規分布表で確認しましょう。
結果としては、0.4962(≒49.6%)になります。
これを両側に拡張すると、
$$49.6\%×2=99.2\%$$
となります。
±3σの範囲に入る確率が99.7%であることを考えると、その差はわずか0.5%!
2.67σという値は、思った以上に3σに近いものだと分かって頂けたはずです。
2.67σと最初に見たときに
「3σと全然違うじゃん」
と思ったあなた!これで勘弁してください・・・
まとめ
以上の結果から正規分布である場合、箱ひげ図における外れ値とは0.8%(100%-99.2%)の確率でしか発生しない稀なデータのことを指すということが分かりました。
個人的には精々5%から外れた時くらいだろうと思っていたので、この結果には驚きました。
ほぼ3σなんですね。早とちりして上司に適当なことを吹き込まなくて良かったです。
ただし注意しなければならないのは、この結果は飽くまでデータが正規分布に従っている場合に限るという事です。
この世には色々な分布がありますし、正規分布に似ていても歪んでいたり、尖っていたり様々です。
なのでこの値は目安として扱う程度に留めておいてください。
ただこういう統計グラフを見る際に目安を知っているというのは、かなり大きな武器です。
「箱ひげ図って何%の確率で外れ値が出るの?」
と聞かれた場合、
A「かなり低い確率だよ」
B「正規分布のときに1%以下だから、かなり低い確率だよ」
いずれの場合の方が、説得力を有するか一目瞭然です。
何かを説明するとき、特に統計の知識に関する場合は数字を絡めるようにして伝えることで、高い理解度を持っているとアピール出来ますし、説得力も段違いです。
おそらく箱ひげ図をここまで理解して、使いこなしている人は殆どいないはずで、この記事を読んだあなたはかなり貴重な人材となっているはずです。
皆さんも箱ひげ図に関して、質問されたときにこの値 99.2% を使ってみてください。
統計が得意アピールが出来ますよ!
今すぐ、あなたが統計学を勉強すべき理由
この世には、数多くのビジネススキルがあります。
その中でも、極めて汎用性の高いスキル。
それが統計学です。なぜそう言い切れるのか?
それはビジネスというのは、結局お金のやり取りであり、必ず数字が絡んできます。
そして数字を扱うスキルこそが統計学だからです。
故に一口に統計学といっても、
営業、マーケティング、研究開発、品質管理、工程管理、生産管理.etc
これら全てで使う事が出来るのです。
現に私は前職は品質管理、現職は研究開発職なのですが、面接のときに
「品質管理時に活用した、統計の知識を研究開発にも活かせます」
とアピールして職種をうまく切り替える事が出来ました。
そして、もし始めるなら今から勉強を始めましょう。
なんなら、今すぐこのページを閉じて本格的に勉強を開始するべきです。
なぜなら、このような『スキル』は20代でもっともキャリアアップに繋がるからです。
30代ならいざ知らず、40代になると求められるのはこれまでの業務を遂行してきた経験や人脈なのです。
これが無いとある一定以上のキャリアアップは望めませんし、40代以降のハイクラスの転職先も望めません。
20代のうちは成果を結び付けるためにこのスキルが大いに役立ちますが、年を経るごとに求められる働き方が変わるのでスキルの実績への寄与が減ってしまうのです。
なので、後からやればいいやと後回しにすると機を逸してしまう可能性が高いです。
ちなみにこれから統計学を学習をするというのであれば、ラーニングピラミッドというものを意識すると効率的です。
私自身、インプットだけでなく、youtubeや職場でアウトプットしながら活用する事で統計リテラシーを日々向上させていっています。
ぜひ、アナタも当ブログやyoutubeチャンネルで統計リテラシーを上げて、どこでも通用するビジネスパーソンになりましょう
コメント