“ばらつき”を扱うツール、統計学
その中で最も重要な代表値が標準偏差です。
しかしながら、『標準偏差を知るために適切なサンプルサイズは?』と言われると実はよく分からないという事、ありませんか?
ネットで調べてるとN=30だのN=50だの、はたまたN=100は必要だの様々です。
これでは埒が明きません。
故に今回は、サンプルサイズがどの程度必要なのか、推定からの逆算で考えてみましょう!
youtubeでも解説しています。
推定から逆算してみよう
なぜ推定から考えるのか?
推定とは、代表値(平均値や分散)がどの程度の確率(大抵95%)で、どの程度の範囲に収まるのかを導く手法です。
そして推定では、基本的に有意水準αを決めてしまえば、変数の要因はサンプルサイズしか残りません。
これは、ある信頼区間に収めたいのならば、このくらいのサンプルサイズが必要であるという事を逆算で導き出すことが出来る事を意味します。
分散の区間推定
区間推定とはある代表値(平均値や分散、標準偏差など)が、どのくらいの確率でどのくらいの範囲に収まるかを推定する技法です。
今回は標準偏差を話題として挙げていますが、推定の手法で扱われる”ばらつき”の指標は分散であるために、まずは分散の推定について考えてみます。
分散の推定については、以下の記事を参照ください。
分散の信頼区間は以下になります。
$$1-α=Pr[X^2(n-1,1-α/2) ≦ X^2 ≦ X^2(n-1,α/2)]$$
↓
$$1-α=Pr[X^2(n-1,1-α/2) ≦ \frac{S}{σ^2} ≦ X^2(n-1,α/2)]$$
↓
$$1-α=Pr[\frac{S}{X^2(n-1,α/2)} ≦ σ^2 ≦ \frac{S}{X^2(n-1,1-α/2)}]$$
ちなみにX2はカイ二乗値です。
1-αは通常95%を設定します。つまりこの区間にσ2が収まる確率は95%ということです。
ちなみに上限と下限をそれぞれ平方根をとると、そのまま標準偏差の信頼区間となります。
信頼区間の比を見てみよう
今回はこの分散の上下限の信頼区間比の平方根、つまり標準偏差の信頼区間比がサンプルサイズによって、どのような推移を辿るのか見てみましょう。
この信頼区間の比は、
「このくらい標準偏差は振れるよ」
という意味になり、そのまま値の精度に繋がる数字となりますから、この値が1に近いほど精度が良いという意味になります。
先程得られた式、
$$1-α=Pr[\frac{S}{X^2(n-1,α/2)} ≦ σ^2 ≦ \frac{S}{X^2(n-1,1-α/2)}]$$
に対して有意水準α=0.05と設定すると、信頼区間の上下限の比は
$$\sqrt{\frac{X^2(n-1,0.025)}{X^2(n-1,0.975)}}$$
以上のような式で表現されます。
ここからは、エクセルの力を借りましょう。
エクセルで、自由度(⇒サンプルサイズn-1)と確率(⇒1-有意水準α)からカイ二乗値を導く関数は
=CHIINV(自由度、確率)
になります。なので、先述の標準偏差の信頼区間の比は
$$\sqrt{\frac{CHIINV(n-1,0.025)}{CHIINV(n-1,0.975)}}$$
でエクセルで計算することが出来ます。
どのくらい必要なのか考えてみよう
実際に計算してみました
結果が以下のグラフです。
これで見てみると、自由度(≒サンプルサイズ)30程度から信頼区間の比の変化が落ち着きだしています。比としてはこの時点で1.66です。
少なくともサンプルサイズ20程度では、信頼区間の比(=1.86)がまだ大きいように見受けられます。
サンプルサイズ100になると、1.32になります。
結局結論は?
結局結論はどうなんだ?という声が聞こえてきそうですが、正直な話
「状況による」
としか答えられません。なんか申し訳ないです。
しかしながら、標準偏差を始めとした代表値がどの程度の精度で必要なのかは、やはりその状況によるのです。
少なくとも、推定から逆算することでサンプルサイズがどの程度精度に影響するのかは明白になります。
自分の観測データには、どの程度の標準偏差の精度が必要なのか。
上司はどの程度の精度なら許容してくれるのか。
なぜサンプルサイズを、この数で設定したのか。
今までは、
「一般的にサンプルサイズが30が妥当と言われている」
としか言えなかったのが、
「サンプルサイズ30とすることで、上下限比1.66に95%の確率で収まる」
と根拠をもって提出出来るようになります。
これは、とても大きな事だと私は思います。
まとめ
信頼区間の考え方を変形すれば、標準偏差や分散に必要なサンプルサイズを設計することが出来ます。
この方法を活用するメリットとしては、得られた標準偏差がどの程度当てになるかを予測することが出来るという点です。
測定対象の変動スケールを考慮すれば、必要最小限のサンプルサイズに抑えることも出来るし、逆にサンプルサイズが足らないということも防ぐことが出来ます。
今すぐ、あなたが統計学を勉強すべき理由
この世には、数多くのビジネススキルがあります。
その中でも、極めて汎用性の高いスキル。
それが統計学です。なぜそう言い切れるのか?
それはビジネスというのは、結局お金のやり取りであり、必ず数字が絡んできます。
そして数字を扱うスキルこそが統計学だからです。
故に一口に統計学といっても、
営業、マーケティング、研究開発、品質管理、工程管理、生産管理.etc
これら全てで使う事が出来るのです。
現に私は前職は品質管理、現職は研究開発職なのですが、面接のときに
「品質管理時に活用した、統計の知識を研究開発にも活かせます」
とアピールして職種をうまく切り替える事が出来ました。
そして、もし始めるなら今から勉強を始めましょう。
なんなら、今すぐこのページを閉じて本格的に勉強を開始するべきです。
なぜなら、このような『スキル』は20代でもっともキャリアアップに繋がるからです。
30代ならいざ知らず、40代になると求められるのはこれまでの業務を遂行してきた経験や人脈なのです。
これが無いとある一定以上のキャリアアップは望めませんし、40代以降のハイクラスの転職先も望めません。
20代のうちは成果を結び付けるためにこのスキルが大いに役立ちますが、年を経るごとに求められる働き方が変わるのでスキルの実績への寄与が減ってしまうのです。
なので、後からやればいいやと後回しにすると機を逸してしまう可能性が高いです。
ちなみにこれから統計学を学習をするというのであれば、ラーニングピラミッドというものを意識すると効率的です。
私自身、インプットだけでなく、youtubeや職場でアウトプットしながら活用する事で統計リテラシーを日々向上させていっています。
ぜひ、アナタも当ブログやyoutubeチャンネルで統計リテラシーを上げて、どこでも通用するビジネスパーソンになりましょう
コメント
[…] <変動幅とサンプル数の関係>※標準偏差に必要なサンプルサイズはいくらか? […]
[…] <変動幅とサンプル数の関係>※標準偏差に必要なサンプルサイズはいくらか? […]