統計学の考えの中心にあるもの。それは正規分布です。
これは、様々な自然現象や人間の行動を集計して確率を導き出した際、最も多く取りうる分布の形です。
その為統計学の多くの手法は、この正規分布を前提として成り立っています。
しかし、この正規分布、形は知っていてもどういう意味のグラフか、またどのような性質を有しているかを知っている人は案外少ないのではないでしょうか。
今回は、統計学を支える重要な分布、正規分布を簡単に紹介していきます。
確率密度関数ってなんだ?
基本的には、滑らかなヒストグラムみたいなものです。
しかしながら、横軸の値が連続的に変化するものなので、縦軸がそのまま確率という訳ではありません。
厳密に横軸と縦軸の解説をすると、
横軸は確率変数(ある変数をとる確率が存在する変数)で、縦軸は確率密度(ある範囲の値の相対的な出やすさ)になります。
そして確率変数が連続的な値をとる分布は、連続型確率分布と呼ばれます(確率変数が連続では無い場合は対して離散型確率分布と言います)。
聞きなれない単語のオンパレードですが、この中で最も特殊な概念は確率密度です。
確率密度は確率とは異なる概念です。
もし分布の縦軸が確率の場合、確率変数一つにつき確率が算出されます。
対して、縦軸が確率密度の場合、ピンポイントな確率変数だけでは、確率は求まりません。
0です。
正規分布のような、縦軸が確率密度になっている分布では、確率変数の範囲を指定しないと確率が算出されないのです。
確率変数の範囲を指定したら、その範囲の面積が確率になります。
これは、連続であるがために確率変数が取りうる値は無限に存在するために、確率変数に対して一定の確率を与えると、その和は無限大になってしまうためです。
例えば、針を落とした場合どの角度を向くかということを考えてみましょう。その角度は0から360度の間のどの角度も取りうることになります。桁を考慮しなければその角度は無限にあります。
故に、連続的に確率変数が変化する対象に対しては、確率変数をピンポイントで指定することはそもそも出来ないのです。
出来ない、故に0なのです。
そのため、0~40度の間になる確率はいくらか?
といった考え方が、連続する確率変数を扱うときの確率に対しての考え方になります。
昔の人(ガウス)は本当にすごいです。
正規分布の形はたった二つの値で決まる!
そしてその確率は、先ほど示した正規分布の「面積の大きさ」に該当します。
さてこの正規分布ですが、式としては
$$f(x)=\frac{1}{\sqrt{2\pi}σ}exp(-\frac{(x-μ)^2}{2σ^2})$$
とやたらとややこしいですが、特に覚える必要はないです。
重要なのは
μ(算術平均)とσ(標準偏差)が決定すると、x(確率変数)に対してのf(x)(確率密度)が決定する。
つまり
『平均値と標準偏差だけで正規分布の形は完全に決定される』
という事実です。
このことから、正規分布のパラメータは
N(μ、σ2)
という記号で示されることが多いです。
σではなく、σ2である理由は、数学的には標準偏差より分散の方が取り扱いが容易であるためです。
このμとσですが
・μが中央に位置する。
・σは正規分布の裾野の広さを示す。
といったものを司っており、μを変えると分布の位置が、σを変えると分布の形(裾の広さ)が変わります。
次回は『標準正規分布』について解説していきます。
コメント