統計というものは、ある集団の正体を知るために、すべてのデータではなく集団から取り出した一部のデータを使って、その正体を推定する技術です。
そして統計学では、集団や抽出したデータを以下のような単語で表しています。
・母集団:推測の対象となる全体の集団
・標本(サンプル):母集団から選ばれる一部分の集まり
・サンプル数:標本の数
・サンプルサイズ:標本の大きさ
・統計的推測(統計的推論):標本の調査に基づいて母集団の性質について推測すること
例えばある製造ラインの品質を、ロット(ロット数は3ロット、1ロット当たり製品数は10個)から調査する場合
母集団:製造ラインで作られる製品すべて
標本:ロット
サンプル数:3
サンプルサイズ:10
統計的推測:ロットから製造ラインの品質を推測すること
となります(サンプル数とサンプルサイズは特に間違えやすいです)。
ここで重要なのは、母集団からすべてのデータを抽出出来るシチュエーションは、非常に少ないということです。
というのは、
1.母集団がまだ実在していない
2.調査が破壊を伴う(破壊試験)
3.時間、資源的に難しい
のいずれかに該当することが多いからです。
1.母集団がまだ実在していない
先ほどの製造ラインの例ですと、この場合の母集団というものはラインが出来て初めて作った製品から、これから先に作る製品、つまり
「ラインの稼働開始から稼働停止までに作られたすべての製品」
が対象になります。
この場合、未来に作る製品を調べることは絶対に不可能であり、母集団はまだ実際には存在していないのですべてのデータを抽出することは不可能ということになります。
2.調査が破壊を伴う(破壊試験)
調査には非破壊だけでなく、破壊を伴うものもあります。
例えばあるワイヤーの強度を測定する検査があるとしますが、このワイヤーの強度を測定するために、ワイヤーが切れるまで引っ張り、切れた時の負荷を測定するという方法をとる場合、これは破壊試験に該当します。
当然、破壊試験を実施した製品は壊れてしまいますので、これを母集団すべてに適用すると母集団はなくなってしまうわけです。
これを解消して母集団すべてを測定したい場合は、非破壊の代替試験を採用する必要があります。
3.時間、資源的に難しい
対象とする母集団によっては、非常にサンプルサイズが大きい場合があります。
例えば視聴率の調査です。
視聴率の調査は、母集団は全国民ですが、実際には1000世帯程度に対して調査を行っていると言われています。
調査する時間も、金も、人手も、非常にかかるために難しいからです。
ちなみに5年ごとに行われる国勢調査は、人口の総数、年齢別構成を把握するために、全国民に対して実施されています。
まとめ
以上のことから、母集団の調査というものは困難であることが多いです。
そして、限定されたサンプルで母集団を予測する『統計学』を正しく理解することが、非常に重要になってくるわけです。
コメント