相関係数、標準偏差、検定など統計による分析を行っていると、
「なんか思っていた結果と違う」
ということがよくあります。
特にこのサイトを始めて統計をより意識して使用するようになってから、この違和感との遭遇が殊の外多いということを私は自覚するハメになっています。
この
「なんか思っていた結果と違う」
という違和感について、今回は私なりに考察したいと思います。
違和感とは何か?
「なんか思っていた結果と違う」
というのは言い方を変えれば、
「仮説と結果が合わない」
ということです。
・高い相関性を示すと思っていたら、相関性が無かった。
・有意差はないと思っていたら有意差があった
・バラツキなんてほとんどないだろうと思っていたら、実はかなりバラついてた。
というようなことです。
このように自分の立てた仮説と異なる結果に人が相対したとき、取りがちなリアクションは
・まぁ結果がそうならそうなんだろうな
・仮説と異なっているということは、分析手法がなにか間違ったんだろうな
といったところだと思います(というより私が陥りがちな思考です・・・)。
ですが、ここで分析の手を止めてしまっては非常にもったいないです。
なぜなら、「仮説との違い」は真実を知るための大きなヒントになるからです。
大切なのは違和感から考察すること
仮説と違うということは、
・仮説が違っていたか
・手法の運用が間違っていたか
ということになると思います。
このそれぞれの観点を深堀していくことが非常に大切だと思います。
仮説が違うと仮定した場合
仮説がどう違っていたら得られた分析結果になるのかを考えましょう。
そうやって、分析結果に合わせた仮説になっているかを検証するために再度分析戦略を立ててサンプリングしていきます。
そうすることで、思いもよらなかった結果が得られる可能性があります。
おそらくみんなで集まってう~んと唸ってブレインストーミングをするよりも、余程得るものが多いかもしれません。
また最初の仮説から、分析結果を遠ざけている原因を探るべく生データにも注目するべきです。
数が多すぎて一つ一つ見ることが難しい場合は、エクセルの「折れ線グラフ」で単に一直線に並べてみるのも面白いです。
平均値を見る場合は、この線の水準がどのあたりにあるのかを見てみます
バラツキを見る場合は、何か歪めている外れ値が無いかを確認したり、外れ値を外して値が変動したりしないか確認したりします。
また、この折れ線グラフだと何か周期性がありそうにも見えますので、それが何かヒントにならないか考えてみたりします。
統計結果は飽くまで生データの一面のみを示した結果になります。
統計分析の結果だけでは、別の一面を見逃す可能性もあります。
生データとも相互に向かい合うことで分析の質を高めることが出来るようになります。
分析手法が間違ったと仮定した場合
統計のテキストに立ち返ってみるべきでしょう。
個々の統計の手法が使える範囲はかなり限定的です。
・サンプルサイズが30以上ないと信頼性がない(標準偏差)
・サンプルサイズが大きすぎると信頼性がない(検定)
・正規分布でないとダメ(パラメトリック手法)
・正規分布だとダメ(ノンパラメトリック手法)
取りたい対象がバラツキの場合、サンプルサイズが十分なら標準偏差が活用できますが、サンプルサイズが小さい場合は四分位範囲を使った方が良い場合があります。
このように手法の選択が不適切の場合というのは、往々にしてあります。
何か分析結果に違和感を感じたら分析手法が正しいか統計の教本(テキスト)を確認しましょう。
これを繰り返していくことで、各々の手法についての理解が深まっていき、分析の精度が向上していくはずです。
コメント