ポアソン分布の見つけ方は以前に紹介しましたが、使い方に関してはまだ紹介していません。
統計の教科書を見ても、中々分布の実用方法を示唆しているものは少ないです。
今回はポアソン分布に対しての平均値の差の検定から、ポアソン分布の活用方法について紹介してきます。
この記事で検定だけでなく、目標設定も合理的に決めることが出来るようになります。
ポアソン分布で平均値の差の検定をしよう
結局使うのはt検定
扱うものはポアソン分布ではありますが、平均値の差の検定で使用するのはt検定です。
t検定が使用出来る理由ですが、それは中心極限定理のおかげです。
サンプルの平均値は基本的に、母集団の分布形状に関わらず正規分布の形をとります。
この原理のおかげで、t検定の場合は母集団の形状を考慮する必要が原則的にはありません。
実際にやってみよう
ここからは実際にポアソン分布に対してt検定を実施してみます。
以下の事例について考えてみましょう。
『不良率3%の製造ラインに対して、改善活動を行った。そして200個をサンプリングして1個の不良が観測された。この観測結果から改善効果はあったといえるか?』
今回は有意水準0.05とし、また改善したかを確認したいので片側検定を実施します。
mを明確にしよう
ポアソン分布は平均値、分散ともにm=npになります。t検定ではこのmを基本的に使用しますのでまずはmを導き出しましょう。
今回改善後の観測数はn=200個、改善前不良率p=3%、改善後不良数x=1個になります。
そして改善前のmはnp=200×3%=6個です。
エクセルでt値を算出しよう
有意水準α=0.05の場合のt値を用意します。t分布表を使用してもいいのですが、エクセルを使用した方が簡単なので、エクセルを使用しましょう。
=T.INV(有意水準,自由度)
これで片側検定のt値が出ます(両側の場合はT.INV.2Tです)。今回は有意水準0.05、自由度は200-1=199になりますので、
=T.INV(0.05,199)=-1.65
この値より小さければ有意差ありとみなされます。
検定しよう
次にt0を計算します。先ほどmとxが準備出来ましたので、t値の公式
$$t_0=\frac{x-μ}{σ}=\frac{x-m}{\sqrt{m}}$$
に代入します。
$$t_0=\frac{x-m}{\sqrt{m}}=\frac{1-6}{\sqrt{6}}=-2.04$$
以上からt0=-2.04<t=-1.65なので有意差ありとなり、改善効果はあると判断されます。
目標値を定めよう
もう少し突っ込んで考えてみましょう。
今回の検定において、改善前の不良率が分かっています。
あとは改善効果の確認のためのnと有意水準を決めてやれば、そもそもどの程度の不良数に減れば改善出来たと目標設定出来るはずです。
仕事をする上で目標を定めることは重要です。その目標が合理的に決めることが出来るのであれば、これは強力なツールになり得ます。
実際にやってみましょう。
5%のt値から逆算しよう
有意水準を5%とした場合、あとはサンプルサイズを決定すればt値は算出出来ます。
今回のn=200の場合は、t=-1.65でした。
n=200の場合改善前はm=6です。
以上数字をt0に当てはめると
$$t_0=\frac{x-m}{\sqrt{m}}$$
$$-1.65=\frac{x-6}{\sqrt{6}}$$
$$x=1.95$$
と200個中1.95個を下回れば、改善効果ありと判断できると分かります。
この方法は、当然ポアソン分布以外の分布にも当てはめて使用することが出来ます。
中心極限定理により、母集団の分布に関わらずt検定を実施出来るからです。
ただし、ポアソン分布以外の場合平均値=分散とはならないので、そこは注意してください。
まとめ
今回はポアソン分布の場合のt検定について紹介しました。
この方法は、改善効果があったか否かを見る以上に、どのくらいの数字になれば改善効果があると言えるのかを目標設定することが出来るという点が強みと言えます。
教科書では検定や推定は標準的な方法しか載っていませんが、逆算することで目標やサンプルサイズを決定出来るなど、裏技的な使用法も結構あります。
本を読むだけでは、中々思いつかないので業務に活かしながら応用を考えてみて下さい。
それはあなたの財産になります。
コメント
初めまして。
正規分布を仮定できない2つの群の母平均の差の推定をやっている人がいないかをweb上で探していたところ、こちらのサイトに出会いました。
この内容は私が探していたものとは異なりますが、なかなか丁寧に解説されていて関心しております。
ただ気になる点があり、質問させていただきます。
事例で「不良率3%の製造ラインに対して…」とあり、この3%というのは母比率が既知であるという想定のように解釈できます。
実際問題として母比率が既知であるという想定はなかなかないと思われるのですが、そこは脇において置いておくとして、この場合、標本が1つしかないので中心極限定理は作用しませんし、この検定法は無効であり、結果は単に平均6のポアソン分布そのものではないでしょうか?
ご参考までにこの記事と同様のサイトがありました。
このサイトの内容であれば妥当性がありますし、この内容をモンテカルロ法でシミュレーションした結果とほぼ一致します。
https://bellcurve.jp/statistics/course/9492.html
いろいろ言って申し訳ないですが、貴サイトの趣旨は良いと思いますし、陰ながら応援します。