差は本当にあるのか。
相関性はあるのか。
もしそれが、一定の確率で「ある」と言えるなら、新しい取り組みが出来る。
統計を使って何かを分析するというのは、こういう状況下だと思います。
そんな中で、問題になるのは「どんなデータを準備しようか」です。
データの準備には2種類あると思います。
①今から集める。
②今あるデータを使う(まとまり/散らかっているの区別なし)
まとまっている場合は、迷わず②を選ぶと思います。
ですが、もし今あるデータが全く整理されていない状態の場合は、おそらく皆①の選択肢を選ぶと思います。
今あるデータが膨大であればあるほど、それをまとめる作業が大変になるからです。
ですが、私個人としてはデータが整理されていない状態でも、まずは今あるデータを使うように試みるべきだと思います。
それは、やはり過去から今まで取ってきたデータの方が、これから短期間でとるデータよりも膨大だからです。
データを採取するのには、どうしても時間がかかります。
時間のバラツキを考慮に入れると、日をまたいで採取する必要があるからです。
またN数が大きいとそれだけ、確かな結果が得られる可能性が高いです。
しかしながら、データを整理した結果、分析に活用できるデータではないという場合もあり得ます。
もし活用できるデータではなかった場合、その整理にかけた時間はムダということになります。
では、どうすればいいのでしょうか。
まずはデータ項目の整理
整理するときは、まず「データ項目」の整理から始めるのです。
使えないデータというのはおそらく
・データが中抜けしている
・分析したい項目が抜けている。
のいずれかです。
中抜けの場合は、データ量が多ければ、中抜けしていないデータだけをかき集めても十分なN数になる可能性が残っています
対して、分析したい項目が抜けている場合はどうしようもありません。
例えば塗布材の粒子濃度と塗布後の平滑さの関係を見たい場合
中抜け:ところどころ、粒子濃度もしくは平滑度のデータが抜けている
項目抜け:粒子濃度のデータを取っていない、もしくは平滑度のデータを取っていない
の場合、中抜けはどうにかデータをかき集めれば何とかなりそうですが、項目抜けの場合はどうしようもないのです。
ただし、この項目抜けも「代替項目」があれば解決する可能性があります。
項目が抜けていて、代替できそうな項目も見つからなければ、新しくデータを取りましょう。
一部のデータを整理分析する
項目を整理して、まずはなんとかなりそうと分かったら次はデータを集めます。
ただし、ある一定のデータが集まったら一度整理の手を止めましょう。大体N=30になった辺りで止めていいと思います。
そして分析にかけてみましょう。
最初に実施しようとしていた分析内容で大丈夫です。
実際に使って、なんとかそれらしい結果が出れば、データの整理を続行しましょう。
もし、採取方法がおかしい場合
例えば
・採取者が毎日データをとらず同じ数字を入れていた
・小数点まで必要なところ、整数までしか記載しておらず非連続的になっている
等々といった状況なら、分析する最中におかしいと気が付きますので、気が付いて使えないと分かったら、新しくデータを取りましょう。
まとめ
このように過去のデータが膨大にある場合に、それが使えるか使えないかは、項目をまとめて簡単に統計手法に導入したら、使えそうか分かるものです。
この手順を踏めば、データをまとめる時間を無駄に消費するリスクも、新しいデータを不必要に取るリスクも最小限に出来るはずです。
ぜひ一度試してみてください。
コメント