以前は検定の検出力の計算方法を紹介しました。
今回はそこからサンプルサイズの計算方法を紹介します。
検出力を元にしてサンプルサイズを設定することで、高い検出力での検定を行う事が出来ます。
サンプルサイズの計算
最も簡単なサンプルサイズの算出は?
前回紹介した式
$$1-β=Pr(z≦-Z_{α/2}-\sqrt{n}Δ)+Pr(z≧Z_{α/2}-\sqrt{n}Δ)$$
ただし
$$Δ=\frac{μ_1-μ_0}{σ}$$
において1つ目の式の右辺第一項は、√nΔが非常に小さい時以外ほぼ無視できます。
よって1つ目の式は
$$1-β≒Pr(z≧Z_{α/2}-\sqrt{n}Δ)$$
と見なすことが出来ます。この式は
$$Z_{1-β}≒Z_{α/2}-\sqrt{n}Δ$$
のように解けます。これを変形すると
$$n≒(\frac{Z_{α/2}-Z_{1-β}}{Δ})=(\frac{Z_{α/2}+Z_{β}}{Δ})$$
となり、これがサンプルサイズnの算出式になります。
これはz検定つまり、サンプルサイズが膨大(100以上)な場合にのみ適用できる算出式です。
t検定の場合のサンプルサイズは?
どちらかといえば、皆さんt検定におけるサンプルサイズの方が気になるのではないでしょうか?
だってt検定の方が頻繁に使うでしょうから。
ということで、
t検定でのサンプルサイズの導出式ですが・・・
計算は割愛させていただきます。
というのも、当サイトで扱うには計算方法が難儀すぎるのです。
とりあえず、算出式だけ紹介させていただきます。
$$n≒(\frac{Z_{α/2}+Z_{β}}{Δ})+\frac{Z^2_{α/2}}{2}$$
z検定の時よりサンプルサイズが若干大きくなります。
t検定はz検定が小サンプルサイズに対応出来ないために作られているので、検出力を担保するためにサンプルサイズが増加する事は当然であると言えます。
たとえば有意水準αが5%の場合
$$\frac{1.96^2}{2}=1.92$$
と+2ほど大きくなります。
実際の使用について
サンプルサイズですが、式から
有意水準α:5%(0.05)
検出力:80%(0.8)
とセオリーどうりに決めた場合、結局Δによって決定します。
Δが大きいほどサンプルサイズは小さくなり、
Δが小さいほどサンプルサイズは大きくなります。
Δが大きいということは、平均の差μ1-μ0に対してバラツキである標準偏差が小さいということです。
バラツキが小さいとμ1≠μ0の境界が明確になるためにサンプルがそれほど必要ではなくなるのです。
逆に標準偏差が大きい(Δが小さい)とμ1≠μ0の境界が曖昧になるので、検定の精度が落ちます。
故に多くのサンプルが必要になります。
また注意点ですが、算出したサンプルサイズより無暗に大きくしたら良いというものでもありません。
検定はサンプルサイズが増えるほど帰無仮説を棄却しやすくなります。
$$σ=\sqrt{\frac{σ_0}{n}}$$
この式は元の分布の標準偏差σ0より、サンプルサイズが大きくなるほど平均値の標準偏差σが小さくなることを示しています。
分布がサンプルサイズの上昇に伴いどんどん収束していって過剰に帰無仮説を棄却しやすくなります。
そうなると第一の過誤つまりH0:帰無仮説が成り立っているのにH0を棄却してしまうという誤りをする危険性が出てきます。
故に検出力と有意水準そして設計したΔから求めたサンプルサイズ通りに検定を実施することが一番高精度ということになります。
計算が難しいという方には?
ただこの辺りの計算。
一々やっていられないというのが、本音ではないでしょうか。
実際に私もこんな計算やっている暇ないです。
仕事は常に時間との勝負。こんなことに時間をかけていられません。
なので、この辺りの検出力、サンプルサイズ設定はEZRに任せてしまいましょう。
ここにEZRでの検出力とサンプルサイズの出力方法をまとめています。
マウスと簡単な設定値入力で誰でも出来ますので、ぜひ活用してみて下さい。
まとめ
検定において検出力とサンプルサイズは非常に重要な要素です。
ですが、中々これらについて記述した文献というものは少ないのが現状です。
このサンプルサイズについて、書かれた本と言えばコチラ
今回の内容も、この本を参考に書いています。
より詳細に勉強したいという方は、ぜひ読んでみて下さい。
今すぐ、あなたが統計学を勉強すべき理由
この世には、数多くのビジネススキルがあります。
その中でも、極めて汎用性の高いスキル。
それが統計学です。なぜそう言い切れるのか?
それはビジネスというのは、結局お金のやり取りであり、必ず数字が絡んできます。
そして数字を扱うスキルこそが統計学だからです。
故に一口に統計学といっても、
営業、マーケティング、研究開発、品質管理、工程管理、生産管理.etc
これら全てで使う事が出来るのです。
現に私は前職は品質管理、現職は研究開発職なのですが、面接のときに
「品質管理時に活用した、統計の知識を研究開発にも活かせます」
とアピールして職種をうまく切り替える事が出来ました。
そして、もし始めるなら今から勉強を始めましょう。
なんなら、今すぐこのページを閉じて本格的に勉強を開始するべきです。
なぜなら、このような『スキル』は20代でもっともキャリアアップに繋がるからです。
30代ならいざ知らず、40代になると求められるのはこれまでの業務を遂行してきた経験や人脈なのです。
これが無いとある一定以上のキャリアアップは望めませんし、40代以降のハイクラスの転職先も望めません。
20代のうちは成果を結び付けるためにこのスキルが大いに役立ちますが、年を経るごとに求められる働き方が変わるのでスキルの実績への寄与が減ってしまうのです。
なので、後からやればいいやと後回しにすると機を逸してしまう可能性が高いです。
ちなみにこれから統計学を学習をするというのであれば、ラーニングピラミッドというものを意識すると効率的です。
私自身、インプットだけでなく、youtubeや職場でアウトプットしながら活用する事で統計リテラシーを日々向上させていっています。
ぜひ、アナタも当ブログやyoutubeチャンネルで統計リテラシーを上げて、どこでも通用するビジネスパーソンになりましょう
コメント