正規分布はμ(算術平均)とσ(標準偏差)によって、その形状が決定します。
ですが、実はある数式的処理をすると、いかなる正規分布も同じ形に標準化することが出来ます。
同じ形に変形できるという事は、その標準的な正規分布の性質を知っていれば、いかなる正規分布の形状にも対応することが出来という事です。
標準的な正規分布のことを、標準正規分布と言います。
まんまですね。
今回はこの標準正規分布(並びに正規分布表)の性質を紹介していきます。
書籍で学習する場合には、こちらがおススメです。
多分この記事より面白いです(笑)。ぜひご一読ください。
標準正規分布への変形 標準化
以前示した正規分布の式は
$$f(x)=\frac{1}{\sqrt{2\pi}σ}exp(-\frac{(x-μ)^2}{2σ^2})$$
でした。これに対して
$$z=\frac{x-μ}{σ}$$
というzで正規分布の式を変換すると
$$g(z)=\frac{1}{\sqrt{2\pi}}exp(-\frac{z^2}{2})$$
という式になります。この式が標準正規分布の確率密度の式になります。
でもこれは覚えなくても結構です。
肝心なのは、この
$$z=\frac{x-μ}{σ}$$
です。
この式を使用することで、平均値μと標準偏差σがどのような値を取っていても
$$μ=0$$
$$σ=1$$
に変換することが出来ます。
この
$$z=\frac{x-μ}{σ}$$
を標準化と言います。統計を扱う上でとても大切な処理方法ですので、この式は覚えておいた方がお得です。
そして前回紹介したように、正規分布はN(μ、σ2)で表しますので、標準正規分布はN(0,1)で表現されます。
正規分布表とその扱い方
そして、この標準正規分布において、zがある区間の間の値を取る確率というものがすぐに求められるように数値表が作成されています。
この表を正規分布表と言います。
この表は縦軸がzの小数点第一位までの値、横軸がzの小数点第二位の値を示しており、zの値を指定すると、z=0~指定した数値までにまでの値を取る確率を示します。
例えばz=3.00の場合は、0.4987つまり49.87%のデータが0 ≦ z ≦ 3の範囲に収まるという意味になります。
また、以上のようなプラス側だけでなく、マイナス側も考え方は同じです。
つまり、z=-3.00の場合も0.4987つまり49.87%のデータが-3 ≦ z ≦ 0の範囲に収まるという意味になります。
以上のことから-3 ≦ z ≦ 3の範囲に入る確率を求める場合は
49.87% × 2 = 99.74%
という風になります。
ちなみにこのzですが、これは変形すると
$$x=μ+zσ$$
となり、正規分布のxに戻すことが出来ます。
そしてこのことから、平均値のプラス(マイナス)z倍の標準偏差内に収まる確率というのが分かります。
つまり先ほどのz=±3の例を取りますと、
$$-3≦z=\frac{x-μ}{σ}≦3$$
$$-3σ≦x-μ≦3σ$$
$$μ-3σ ≦ x ≦ μ+3σ$$
であり、
μ-3σ ≦ x ≦ μ+3σ内に値が収まる確率が、99.74%ということになります。
これは非常に重要な性質です。なぜならば、分布が正規分布を取っている前提で平均値と標準偏差が分かればデータの発生しうる確率が割り出せるからです。
3σと1.96だけ覚えよう
この正規分布表ですが、正直この表そのものを活用する機会は少ないように私は思います。
サラリーマンが日常業務で使う上では、以下の2つのz値を押さえておけば十分です。
その数字が
3と1.96です。
3(σ)に関しては、先ほども算出していましたが、99.7%つまり1000個のデータがあれば997個のデータが収まるという”ばらつき”の範囲を示しています。
製造業において、3σは管理値の目安として扱われている非常に大切な数値です。
製造品の日々の管理において、μ±3σから外れた場合は異常として対処をするとか、工程能力指数(Cpk)の算出においても3σが式に組み込まれていたりします。
おそらく、製造業に従事されている方は3シグマという単語は、よく耳にされているものと思います。
私も以前、品質管理の仕事をしていた際は、よく管理値を決めるのに平均±3シグマを使っていました。
その3シグマの根拠が、この標準正規分布なのです。
一方1.96ですが、平均±1.96σの範囲にはデータの95%が収まります。
「この値を外れたら、有意差がある」
という判断の指標になる重要な値です。
検定や推定を教科書で学習する際は、必ずこの1.96と95%(及び5%)を有意水準として扱っています。
教科書で検定や推定を学習する際は1.96=95%と押さえておけば、なぜ1.96を使うのだろうと一々最後尾の正規分布表を確認しなくてもよくなります。
基本的に、この3と1.96以外の数字を正規分布表で扱うケースは稀ですので、とりあえずこの2つの数字と対応する99.7%(3σ)と95%(1.96σ)だけ覚えておきましょう。
今すぐ、あなたが統計学を勉強すべき理由
この世には、数多くのビジネススキルがあります。
その中でも、極めて汎用性の高いスキル。
それが統計学です。なぜそう言い切れるのか?
それはビジネスというのは、結局お金のやり取りであり、必ず数字が絡んできます。
そして数字を扱うスキルこそが統計学だからです。
故に一口に統計学といっても、
営業、マーケティング、研究開発、品質管理、工程管理、生産管理.etc
これら全てで使う事が出来るのです。
現に私は前職は品質管理、現職は研究開発職なのですが、面接のときに
「品質管理時に活用した、統計の知識を研究開発にも活かせます」
とアピールして職種をうまく切り替える事が出来ました。
そして、もし始めるなら今から勉強を始めましょう。
なんなら、今すぐこのページを閉じて本格的に勉強を開始するべきです。
なぜなら、このような『スキル』は20代でもっともキャリアアップに繋がるからです。
30代ならいざ知らず、40代になると求められるのはこれまでの業務を遂行してきた経験や人脈なのです。
これが無いとある一定以上のキャリアアップは望めませんし、40代以降のハイクラスの転職先も望めません。
20代のうちは成果を結び付けるためにこのスキルが大いに役立ちますが、年を経るごとに求められる働き方が変わるのでスキルの実績への寄与が減ってしまうのです。
なので、後からやればいいやと後回しにすると機を逸してしまう可能性が高いです。
ちなみにこれから統計学を学習をするというのであれば、ラーニングピラミッドというものを意識すると効率的です。
私自身、インプットだけでなく、youtubeや職場でアウトプットしながら活用する事で統計リテラシーを日々向上させていっています。
ぜひ、アナタも当ブログやyoutubeチャンネルで統計リテラシーを上げて、どこでも通用するビジネスパーソンになりましょう
コメント