以前当サイトでは、正規分布を紹介いたしました。
確かに、統計学では正規分布を前提とした分析が数多く存在します。
しかしながら、正規分布のような確率分布は他にもあります。
正規分布しか知らない場合、本当は正規分布ではないのに正規分布を前提とした分析をしてしまう可能性があります。
今回は、正規分布以外のメジャーな分布を紹介してきます。
二項分布
離散確率分布(確率変数が非連続の分布)で、最も基本的な分布は二項分布です。
1回の観察である事象が起こる確率がpであり、そのpが何回実施しても一定である現象に対して適用されます。
サイコロでの特定の目が出る確率や、打撃力が3割のバッターがヒットを打つというような現象です。
式としては、
$$P(x)=\frac{n!}{x!(n-x)!}p^xq^{n-x}$$
ただし、nは試行回数、pは確率、qは(1-p)です。
そして、二項分布における平均値と分散値は
平均値:np
分散値:npq(標準偏差は√npq)
と一致します。このように確率分布によって特定の平均値、分散値が存在します。
ポアソン分布
二項分布の変形版として、ポアソン分布があります。
この分布は確率が極端に低くて、n数が極端に多い事象によく当てはまります。
例として、交通事故です。
事故の発生率は極端に少ないもの、車の台数が多いため1日を通しての交通事故件数としては相当数観測されます。
ポアソン分布の確率分布式は
$$P(x)=\frac{m^xe^{-m}}{x!}$$
になります。mはn数と確率pの積npです。
平均値はm、分散値もmと平均値、分散値が一致するという特殊な分布です。
超幾何分布
二項分布の別の変形として超幾何分布があります。
二項分布はnによらず確率が一定の場合に一致しますが、超幾何分布はnが増えると確率が変化します。
トランプからダイヤのスートを引く確率は、ジョーカーの除いた52枚で実施する場合1/4です。
しかしながら、カードを引く度にカードを戻さなければ、ダイヤを引く確率は変化していきます。
このような非復元抽出という現象を扱う場合に、この超幾何分布が用いられます、
確率分布式は
$$P(x)=\frac{{}_{Np} \mathrm{ C }_x×{}_{N-Np} \mathrm{ C }_{n-x}}{{}_{N} \mathrm{ C }_n}$$
ただし、Nは全体の数(トランプの枚数)、nは試行回数(トランプを抜く回数)です。
また、Nがnより非常に大きくなる場合、二項分布と一致します。トランプが52枚×10束=520枚から1,2枚引き抜いてもダイヤを引き抜く確率が変化しないというイメージです。
この超幾何分布の平均値はnp、分散値は((N-n)/(N-1))np(1-P)と一致します。
まとめ
このように様々な分布がありますが、実際に仕事で使えそうな分布はポアソン分布でしょう。
現在の製造業における不良率というものは、非常に小さいものです。
歩留(良品率)にして、99.5%前後というのも珍しくない中で、確率が小さく、サンプルサイズが極大というものを対象とするポアソン分布は極めて当てはまりが良いと言えるでしょう。
今後このポアソン分布に注目してもっと掘り下げていきたいと思います。
コメント