これらの統計手法を用いることで、これまで曖昧だった判断基準や関係性が明確になります。
数学的な裏付けがされたツールであるため、一般的サラリーマン(私のような)にとってはまるで神器のようにありがたい代物です。
特に実際の使用時はエクセルの分析ツールや関数で、比較的簡単に扱えます。
故に、エクセルから算出された結果を鵜呑みにしてしまうことが、私はよくあります。
ですが、統計といえども万能ではありません。
そもそも
・t検定で検証する「平均値」外れ値に影響を受けやすい。
・標準偏差も「平均値」からの偏差をもとに算出するために、外れ値に影響を受けやすい
等々色々と注意する点が多いのです。
なので、使用時には「本当にそうなのか」と疑問を持つことが大切です。
でも実際に疑問を持てと言われても、「じゃあどうすればいいの?」となります。
ということで、私なりに気を付けている点を挙げてみます。
複数の見方をする
検定、グラフをそれぞれ単品で使うと、それでは反映されない異常を見逃す可能性があります。
検定もグラフもその他代表値も、「ある一つの視点からデータを眺めた結果」です。
一つの方向から眺めただけでは本質は分からないというのは、仕事でも人生でもよくある話です。
それぞれの手法が、一つづつの視点でしかデータが見れないなら、複数の手法を同じデータに適用することで、見落としのリスクを回避できます。
仮説と結果が一致しているか検討する
データを分析するときというのは、まず最初に仮説を立てているはずです。
そして分析結果は
・仮説に一致している
・仮説と事なる
のいずれかです。
一致している場合は、そのまま分析結果を受け入れたくなります。
ですがそこは堪えて、別の分析手法で「視点を変えて」分析してみてください。
そうすることでことごとく結果が仮説と一致するなら、高い精度で分析出来たことになりますし、仮説と異なる結果も出た場合は、「なぜ異なるのか」を考察することで新たな発見が見つかるかもしれません。
外れ値を探す
分析の判断を誤らせる代表格は、外れ値です。
なのでまずは、データを採取したら外れ値の有無を確認してください。
ドットプロットやボックスプロットで外れ値は確認出来ます。(単にデータを線グラフでつなげるだけでも、見つかったりします)
ですが、問題はこの後の「外れ値」の扱いです。値が外れた経緯によって扱い方が変わるのです。
・測定ミス、記載ミスなど明らかなミスの場合は、データを除外します
・測定上取りうる値の場合は、そのまま分析に含めるか、除外するかは状況によって判断する必要があります。
特に、分析から外す根拠が見当たらない外れ値を扱う場合は、除外の判断も難しいですし、含めた場合は分析をゆがめる可能性があります。
外れ値を含める場合には、更にサンプルサイズを大きくしてその影響を薄くするべきでしょう。
しかしながら、外れ値をそのまま邪見にするのも考え物です。
もしかしたら、値が外れた理由の中に、新しい発見が隠れている可能性もあるからです。
まとめ
統計というツールは、数字を扱う仕事の上で非常に便利であるために過信してしまいがちです。
そしてものごとを過信したときに人は痛い目に会うと相場は決まっています。
一つの分析結果をそのまま受け入れるのではなく、時間がかかってもいろんな角度からデータを分析しえて、社会に貢献していきましょう。
コメント