統計的解析を行う上で重要なこと③

コラム

統計的解析を行う上で重要なこと②の続きです。

目的と使用すべき手法が決まったら、次はデータ取りです。

データの取り方は特に注意を払う必要があります。

なぜならば、採取したデータがそもそも間違っていた場合、その後どのように分析手法を駆使しても決して正しい結果は得られないからです。

気を付けるべき点は主に以下の2点です。

・採取するデータは偏りなく、正しく母集団を代表するものであること

・適切なサンプルサイズを採取する

 

スポンサーリンク

偏りなくデータを採取する

繰り返しますが、データを採取する際は、母集団を偏らずに正しく代表するものでなければなりません。

例えば一杯のコップの水に塩を投入した場合、

①かき混ぜずに上澄みを味見した場合は、塩味がほとんどしない

②よくかき混ぜた後に上層を味見した場合は、塩味がする

という状況を考えた場合、味見した塩水のデータを正しく採取できているのは、後者の②かき混ぜた方です。

①混ぜてない方は、コップの上層と下層で塩分濃度が異なっているために、上層だけを味見では、コップ全体を代表出来ていないのです。

対して②かき混ぜた方は、かき混ぜることでコップの上層と下層の塩分濃度が均一になるために、上層を味見するだけでコップ全体を代表出来るのです。

もし①混ぜていない方のデータを正しく採取するのならば、上層から下層まで一定の間隔
(深さ何cm単位とか)で採取していく必要があります。

ここで問題になるのが、母集団が不均一均一、いずれの状態かということです。

なぜならば不均一の場合、先ほどの塩水のように一部分のデータを採取しただけでは、母集団を代表出来ていない可能性があるからです。

無難なのは基本的に不均一という前提で、満遍なくデータを採取していくことです。

しかしながら、先ほどの塩水の例でも分かるように、満遍なくデータを採取することは労力が掛かります。

大変なんです。

様々な業務を抱えた状態で、毎度データ採取に力を掛けるというのは、重要だと分かってはいても難しいものがあるのです。

 

ですので現実味のある折衷案としては、

・初めての案件の場合は、不均一と仮定してデータを満遍なく採取する

・集団が不均一か均一か分析する(計測したデータを並べればOK。手法は特に必要なし)

・不均一の場合は、どのように不均一か規則性を探る(先の塩分の場合、底に行くほど塩分が濃くなる等)

・2回目以降は均一の場合は一部のデータを、不均一の場合は前回の規則性を活かして最低限の労力で採取する

このあたりが妥当なところと思います。

最初だけ力を入れて、2回目以降は必要最小限に労力を抑えるのです。

やる必要のない仕事は、極力やらないようにするというのは、とても大切な考え方です。

スポンサーリンク

適切なサンプルサイズを採取する

データを採取するにしても、あまりに少なすぎると正しい評価はできません。

平均値は大したデータ数は必要ないですが、標準偏差などの”ばらつき”の場合は数十のデータはないと信頼性に欠けます。

また前回にも述べたように、サンプルサイズが変わると適用する統計手法が変わってきます。

とはいえ、データ採取に人手が掛かるとなると数十、数百と採取するのはかなり手間です。

ここからは私の経験則になりますが、データを偏りなく採取出来ているなら、データは30個とれていれば平均値や標準偏差は妥当な値を取る傾向が見られます。

もし必要なサンプルサイズを算出してあまりに膨大な数字が出た場合は、とりあえず30個ほどデータを採取して傾向を見てみるといいでしょう。

このように採取の仕方も、ある程度定式化すれば、余計な思考をする必要はなくなり、結果的に仕事のスピードがアップします。

自分なりのフロー、作ってみて下さい。

 

コラム
スポンサーリンク
シグマアイ-仕事で使える統計を-

コメント