以前エクセルでのエラーバーのつけ方を紹介いたしました。
このエラーバーの値には、最大値~最小値の範囲を選ぶことも出来ますし、標準偏差を選ぶことも出来ます。
実は十分なN数がある場合には、標準偏差を選んだ方が良いです。
今回は標準偏差をエラーバーに選んだ際の、データの見方について紹介いたします。
エラーバーに標準偏差を使おう!
そもそもなぜエラーバーを使うのか?
そもそもにおいて、なぜエラーバーを使うのか考えてみましょう。
例えば、以下のような時系列グラフがあるとします。
2016年から上昇し始め、2018年をピークに下降傾向があるように見えます。
ですが、この縦軸のスケールが以下のような場合はどうでしょうか。
先ほど言った差は以前有るものの、印象としては大した差が無いように見えます。
このように平均値だけの線グラフや棒グラフといった比較グラフは、ただプロットしただけではスケールの取り方一つで印象がかなり変わります。
言い方を変えれば、グラフの作り手の恣意的な意図が入り込む余地が出来てしまい、正しく分析出来なく可能性があるのです。
このグラフにエラーバーが入ると、このようになります。
ちなみに、エラーバーの内容は標準偏差です。このようにすると、”ばらつき”を考慮しても大きな差が平均値同士にあるという事が、誰の目からも明らかです。
ちなみに、先ほどと同じように縦軸を調整すると
非常に分かりづらいですが、同じエラーバーがついています。このようにエラーバーが確認出来ないという事だけで、不適切なオーバースケールだと一発で分かります。
また、エラーバーのスケールによっては、同じ平均値であっても差がないという事も当然あり得ます。
例としては、以下をご覧ください。
わざとエラーバーを30にしたものになります。こうなると途端に平均値間の差は、単なる”ばらつき”によるもので、どれも有意な差はないと判断出来ます。
グラフが恣意的になりがちな理由として、”ばらつき”の情報が入っていないことが挙げられます。
今まで説明したように、いくらでも視覚的に騙せるようなグラフもエラーバーが入るだけで、かなり客観性が増します。
エラーバーで簡易的な検定が出来ます
今回は、客観性が増す以外のエラーバーの効果を紹介します。
もう一度以下のグラフをご覧ください。
こういう比較のグラフを見た後に思うのは、
「各値同士に有意差ってあるんだろうか?」
だと思います。
先程も言及しましたが、このエラーバーは標準偏差を使っています。平均値±1σです。
そして2018年と2019年に注目してください。
2018年の下側1σと2019年の上側1σは、ギリギリ接していません。
これは、2018年の平均値に対して2019年の平均値は2σ分離れていると言い換えることも出来ます。
各値とエラーバーが表している分布が、正規分布であると仮定すると、2σ分の距離から外れるという事は、2018年と2019年が同じ分布のデータであると仮定(帰無仮説)の場合、100%-96%=4%の確率で起こる事象であると言えます。
通常仮説検定の場合、有意水準α=5%としますので、これだけ離れているという事は一般的には有意差ありと判断される事象です。
このように、エラーバーが接しているかどうかで、一目で簡易的な有意差検定が実施出来ます。
確かに、各値が正規分布をしている保証はありませんし、実際には標準誤差で行うべきかもしれません。
しかしながら、仕事をする上で、短時間で判断する必要が有る時というのは少なからずあります。
毎度毎度、データを一つ一つ丁寧に見る時間というものはありません。
そのようなときに、このような視点を持っておくと判断のスピードが増します。
まとめ
エラーバーを使う事で、グラフを客観的に出来るし、有意差の有無も簡潔に見る事が出来ます。
世間に出回っているグラフは、思うにあまりにも“ばらつき”の情報が入っていないように思います。
もし興味のあるグラフを目にしたとき、生データが手に入るのであれば、ぜひエラーバーをつけたり、”ばらつき”の情報を盛り込んだりしてみて下さい。
データ分析の精度が増すと思います。
コメント