使えるデータか見極めよう

コラム

差は本当にあるのか。

相関性はあるのか。

もしそれが、一定の確率で「ある」と言えるなら、新しい取り組みが出来る。

統計を使って何かを分析するというのは、こういう状況下だと思います。

そんな中で、問題になるのは「どんなデータを準備しようか」です。

データの準備には2種類あると思います。

①今から集める。

②今あるデータを使う(まとまり/散らかっているの区別なし)

まとまっている場合は、迷わず②を選ぶと思います。

ですが、もし今あるデータが全く整理されていない状態の場合は、おそらく皆①の選択肢を選ぶと思います。

今あるデータが膨大であればあるほど、それをまとめる作業が大変になるからです。

ですが、私個人としてはデータが整理されていない状態でも、まずは今あるデータを使うように試みるべきだと思います。

それは、やはり過去から今まで取ってきたデータの方が、これから短期間でとるデータよりも膨大だからです。

データを採取するのには、どうしても時間がかかります。

時間のバラツキを考慮に入れると、日をまたいで採取する必要があるからです。

またN数が大きいとそれだけ、確かな結果が得られる可能性が高いです。

 

しかしながら、データを整理した結果、分析に活用できるデータではないという場合もあり得ます。

もし活用できるデータではなかった場合、その整理にかけた時間はムダということになります。

 

では、どうすればいいのでしょうか。

まずはデータ項目の整理

整理するときは、まず「データ項目」の整理から始めるのです。

使えないデータというのはおそらく

・データが中抜けしている

・分析したい項目が抜けている。

のいずれかです。

中抜けの場合は、データ量が多ければ、中抜けしていないデータだけをかき集めても十分なN数になる可能性が残っています

対して、分析したい項目が抜けている場合はどうしようもありません。

例えば塗布材の粒子濃度と塗布後の平滑さの関係を見たい場合

中抜け:ところどころ、粒子濃度もしくは平滑度のデータが抜けている

項目抜け:粒子濃度のデータを取っていない、もしくは平滑度のデータを取っていない

の場合、中抜けはどうにかデータをかき集めれば何とかなりそうですが、項目抜けの場合はどうしようもないのです。

ただし、この項目抜けも「代替項目」があれば解決する可能性があります。

項目が抜けていて、代替できそうな項目も見つからなければ、新しくデータを取りましょう。

一部のデータを整理分析する

項目を整理して、まずはなんとかなりそうと分かったら次はデータを集めます。

ただし、ある一定のデータが集まったら一度整理の手を止めましょう。大体N=30になった辺りで止めていいと思います。

そして分析にかけてみましょう。

最初に実施しようとしていた分析内容で大丈夫です。

実際に使って、なんとかそれらしい結果が出れば、データの整理を続行しましょう。

もし、採取方法がおかしい場合

例えば

・採取者が毎日データをとらず同じ数字を入れていた

・小数点まで必要なところ、整数までしか記載しておらず非連続的になっている

等々といった状況なら、分析する最中におかしいと気が付きますので、気が付いて使えないと分かったら、新しくデータを取りましょう。

まとめ

このように過去のデータが膨大にある場合に、それが使えるか使えないかは、項目をまとめて簡単に統計手法に導入したら、使えそうか分かるものです。

この手順を踏めば、データをまとめる時間を無駄に消費するリスクも、新しいデータを不必要に取るリスクも最小限に出来るはずです。

ぜひ一度試してみてください。

 

コメント