正規分布はμ(算術平均)とσ(標準偏差)によって、その形状が決定します。
ですが、実はある数式的処理をすると、いかなる正規分布も同じ形に標準化することが出来ます。
同じ形に変形できるという事は、その標準的な正規分布の性質を知っていれば、いかなる正規分布の形状にも対応することが出来という事です。
標準的な正規分布のことを、標準正規分布と言います。
まんまですね。
今回はこの標準正規分布(並びに正規分布表)の性質を紹介していきます。
書籍で学習する場合には、こちらがおススメです。
多分この記事より面白いです(笑)。ぜひご一読ください。
統計学がうまく使えなかった人はコチラ⇒統計学を活かす 解析しやすい数値化のノウハウ
標準正規分布への変形 標準化
以前示した正規分布の式は
$$f(x)=\frac{1}{\sqrt{2\pi}σ}exp(-\frac{(x-μ)^2}{2σ^2})$$
でした。これに対して
$$z=\frac{x-μ}{σ}$$
というzで正規分布の式を変換すると
$$g(z)=\frac{1}{\sqrt{2\pi}}exp(-\frac{z^2}{2})$$
という式になります。この式が標準正規分布の確率密度の式になります。
でもこれは覚えなくても結構です。
肝心なのは、この
$$z=\frac{x-μ}{σ}$$
です。
この式を使用することで、平均値μと標準偏差σがどのような値を取っていても
$$μ=0$$
$$σ=1$$
に変換することが出来ます。
この
$$z=\frac{x-μ}{σ}$$
を標準化と言います。統計を扱う上でとても大切な処理方法ですので、この式は覚えておいた方がお得です。
そして前回紹介したように、正規分布はN(μ、σ2)で表しますので、標準正規分布はN(0,1)で表現されます。
正規分布表とその扱い方
そして、この標準正規分布において、zがある区間の間の値を取る確率というものがすぐに求められるように数値表が作成されています。
この表を正規分布表と言います。
この表は縦軸がzの小数点第一位までの値、横軸がzの小数点第二位の値を示しており、zの値を指定すると、z=0~指定した数値までにまでの値を取る確率を示します。
例えばz=3.00の場合は、0.4987つまり49.87%のデータが0 ≦ z ≦ 3の範囲に収まるという意味になります。
また、以上のようなプラス側だけでなく、マイナス側も考え方は同じです。
つまり、z=-3.00の場合も0.4987つまり49.87%のデータが-3 ≦ z ≦ 0の範囲に収まるという意味になります。
以上のことから-3 ≦ z ≦ 3の範囲に入る確率を求める場合は
49.87% × 2 = 99.74%
という風になります。
ちなみにこのzですが、これは変形すると
$$x=μ+zσ$$
となり、正規分布のxに戻すことが出来ます。
そしてこのことから、平均値のプラス(マイナス)z倍の標準偏差内に収まる確率というのが分かります。
つまり先ほどのz=±3の例を取りますと、
$$-3≦z=\frac{x-μ}{σ}≦3$$
$$-3σ≦x-μ≦3σ$$
$$μ-3σ ≦ x ≦ μ+3σ$$
であり、
μ-3σ ≦ x ≦ μ+3σ内に値が収まる確率が、99.74%ということになります。
これは非常に重要な性質です。なぜならば、分布が正規分布を取っている前提で平均値と標準偏差が分かればデータの発生しうる確率が割り出せるからです。
3σと1.96だけ覚えよう
この正規分布表ですが、正直この表そのものを活用する機会は少ないように私は思います。
サラリーマンが日常業務で使う上では、以下の2つのz値を押さえておけば十分です。
その数字が
3と1.96です。
3(σ)に関しては、先ほども算出していましたが、99.7%つまり1000個のデータがあれば997個のデータが収まるという”ばらつき”の範囲を示しています。
製造業において、3σは管理値の目安として扱われている非常に大切な数値です。
製造品の日々の管理において、μ±3σから外れた場合は異常として対処をするとか、工程能力指数(Cpk)の算出においても3σが式に組み込まれていたりします。
おそらく、製造業に従事されている方は3シグマという単語は、よく耳にされているものと思います。
私も以前、品質管理の仕事をしていた際は、よく管理値を決めるのに平均±3シグマを使っていました。
その3シグマの根拠が、この標準正規分布なのです。
一方1.96ですが、平均±1.96σの範囲にはデータの95%が収まります。
「この値を外れたら、有意差がある」
という判断の指標になる重要な値です。
検定や推定を教科書で学習する際は、必ずこの1.96と95%(及び5%)を有意水準として扱っています。
教科書で検定や推定を学習する際は1.96=95%と押さえておけば、なぜ1.96を使うのだろうと一々最後尾の正規分布表を確認しなくてもよくなります。
基本的に、この3と1.96以外の数字を正規分布表で扱うケースは稀ですので、とりあえずこの2つの数字と対応する99.7%(3σ)と95%(1.96σ)だけ覚えておきましょう。
コンテンツ紹介
昨今機械学習やディープラーニングなど、データを扱うための知識の重要度は日々増していっています。
そんな最先端のスキルを使いこなすには、土台となる統計学の知識が必要不可欠です。
しかしながら、統計学は本で読んでも何とか理論は理解できてもそこからどのように実務に活かしたら良いのか分からない。そんな机上と現実のギャップが凄まじい学問です。
そんな机上と現実のギャップを埋めるために、私は当サイトをはじめ様々なコンテンツを展開しています。
youtubeでは登録者1万人の統計学のチャンネルを運用しています。
動画投稿だけでなく、週2回のコメントに来た質問への回答配信も行っているので気になる方はどしどし質問をお寄せください。
youtubeでは無料動画だけでなく、有料のメンバーシップ限定動画も運用しています。
メンバーシップ登録リンク(押しただけで登録はされないので、気軽にクリックしてください)
エクセルやJAMOVIといった無料で使える統計ツールの実際の使い方。そして無料動画では敷居の高い(というよりマニアックゆえに再生数が見込めない(笑))解説動画をアップしています。
本を読んで実際に分析してみようと思ったけど、どうもうまくいかなかった。本では見かけない、あるいは難しすぎて扱えない手法があったという方。ぜひ一度ご参加ください(動画のリクエストがあれば反映させます)
「そうは言われても、うちのデータは統計学じゃ分析出来ないよ」
そういう方もいらっしゃると思います。私の経験上、そういったデータ分析が出来ない状況の一つとして量的変数として目の前の現象を扱えていないというものがあります。
私のnoteでは、過去私が製品開発を行う上で実践した分析しやすい数値の測定方法を公開しています。
私が開発活動する上で創意工夫を凝らして編み出してきたアイデアの数々を公開しています(私の知見が増えたら更新していきます)。本やネットではまず載っていません。うまい測定方法のアイデアが浮かばないという方はぜひこちらをご覧ください。
「いや、その前に使える手法を体系的に学びたいんだけど」
そんな方には、udemyの講座を推奨します。
初歩的な標準偏差から、実験計画法、多変量解析まで、実際に私が実用する上で本当に使用したことがある手法に絞って順序立てて解説しています。
どの手法が結局使えますのん?という方はぜひこちらをお求めください。
こんな感じで、様々なコンテンツを展開しています。
今後は品質工学や品質管理に重点を絞ったコンテンツなども発信していきます。
ぜひリクエストがありましたら、それらも反映させていきますのでまずはお気軽にご意見くださいな。
コメント