このブログの執筆のために、より突っ込んで統計を勉強しているのですが、その中で気づいたことがあります。
それは
「統計を使うよりも、統計手法を使うべきデータを揃えること、そして使えるデータかを判断する方が難しい」
ということです。
統計の入門書を読んでみると
・標準偏差
・検定
・推定
・相関
の方法は書いてあるのですが、
・適切なサンプルサイズ
・分析対象が正規分布であるかどうか
については殆どちゃんと記載がありません。
「十分な数のサンプルサイズ」とか、「対象が正規分布である場合」という但し書きが書いてあるだけで一体何を根拠にそれを判断すればいいのかが分かりません。
料理本に調味料の量が書いていないようなものです。
いったいなぜでしょうか。それは
統計分析可能か判断するために、より難しい統計分析が必要だからです。
サンプルサイズの記事やq-qプロットの記事を参照頂けると分かると思うのですが、標準偏差やt検定、Cpkを使う上でのサンプルサイズや正規性の判断にはそれぞれ、推定や検定の手法の応用が必要なのです。
それらはどうみても入門書のレベルを逸脱しています。
故にこのような
「統計を使うよりも、統計手法を使うべきデータを揃えること、そして使えるデータかを判断する方が難しい」
という本末転倒な状況になっているのです。
そしてこのあたりを詳しく解説する書籍が少ないために、統計に対しての敷居が更に高くなっているのではないかと私は思っています。
だって結局どのような状況になったら統計が使用出来るのか分からないのですから。
この状況を打破するためには、難しいからといってこの問題を避けるのではなく、もっとこの問題に直面した書籍やネット記事が増えること。
そしてそれを導き出せる簡便な安価なソフトや、エクセルの分析ツール導入などが必要ではないかと。
出来ればその役割の一端を当ブログが担いたい。
そう思った今日この頃でした。
コメント