統計的手法はその多くが、対象とする分布が正規分布していることを前提としています。
そのため、標本が正規分布しているかどうかは、極めて重要です。
正規性の検証で有名どころはシャピロ-ウィルク検定や尖度、歪度の検定などがありますが、最も代表的なものはQ-Qプロットでしょう。
Q-Qプロットは数ある正規性の検証手法の中で、おそらく最も理解しやすいものと思っています。
エクセルでの検証は面倒ですが、EZRだと簡単に出来ます。
それでは行きましょう!
Q-Qプロットとは?
正規分布を累積分布関数で捉える
Q-Qプロットで中心となるのは、累積分布関数になった正規分布です。
累積分布関数とは、小さい確率変数から大きい確率変数へ確率を積み上げていく(累積)していく関数で、0%に近いところから始まり、最終的に100%付近で飽和します。
Q-Qプロットは、実際の数字で描いた累積分布と平均値/標準偏差から描かれる理想の累積分布を照らし合わせたグラフになります。
Q-Qプロットを作ってみよう
実際にQ-Qプロットを作ってみます。
この41人のテストの点数が正規分布しているか見てみましょう。
ヒストグラムは以下の記事で紹介した方法で作成しています。
手順として、まずはこの実際の点数を累積分布関数にすることから始まります。
基本的に、各数字に順位をつけてその順位から累積確率を導き出します。
①各点数を小さい順に並び替えた時の、順番を付ける。
②以下の式でその順位に該当する累積確率値を割りだします。
$$確率=\frac{順位-1/2}{N}$$
これで順位と累積確率が準備出来ました。
必要はないのですが試しに、この数字で累積分布を描画してみましょう。以下のようになります。
次に平均値、標準偏差から割り出される理想的な正規分布の累積分布を導き出しましょう。
④平均値、標準偏差から正規分布を作った場合の累積密度関数において、各確率値ごとの期待値を算出します(エクセルならNORM.INV関数で算出可能です)。
これらを算出した一覧が以下になります。
理想の正規分布の累積分布を追記すると以下になります。
理想と実際の値にそれほどギャップが無さそうに見えます。
さて、大詰めです。
最後に実際の点数と理想の点数の散布図を作成します。
これでQ-Qプロットの完成です。
Q-Qプロットの見方
Q-Qプロットは実測値と理想値(正規分布)をプロットしたものです。
よって直線であれば、実測値は理想値に近く正規分布であると言えるのです。
今回作ったQ-Qプロットはかなり直線に近いと言えるので、正規分布としても良さそうです。
Q-Qプロットの問題点
Q-Qプロットは直線であるかどうかを確認するという、単純な見方で判別できる方法ですが、どの程度なら正規分布であるとはっきり言うことが出来ない点が欠点であると言えます。
基本的には他の正規性分析と照らし合わせたりするのが良いでしょう。
EZRを使ったQ-Qプロット
エクセルではかなり煩雑な作業が多かったですが、EZRを使えばかなり簡単に作図することが可能です。
Q-Qプロットの作図方法
まずEZRを開き、データをインポートします。
そして、グラフと表を選びその中のQQプロットを選びます。
あとは、正規性分析する変数(今回はpoint=点数)を選択し、正規にチェックがついた状態でOKをクリックしてください。
これで以下のグラフが作図されます。
おしまいです。
EZRでのQ-Qプロット
EZRでQ-Qプロットを実施すると、直線の目安とどこに収まるべきかの破線が自動で描画されるので、正規性があるかどうかの判別がかなり容易です。
手順も簡単ですので、実際の運用時はEZRで行うのが良いでしょう(ただ内容を理解する為に一度はエクセルでやってみることをお勧めします)。
まとめ
このQ-Qプロットは、確率変数と期待値を確率で橋渡しした場合にどれだけ一致するかを見ることで、正規性を確認するグラフです。
今回の事例はヒストグラムを作図した状態では、正規分布か分からない状態でした。
ヒストグラムは級間隔と級数の取り方で、その印象がガラリと変わるものなので、ヒストグラムだけで判断というのは避けましょう。
EZRを使えば、確認も5分以下で終わりますし直線の補助線もあって判断しやすいです。
Q-Qプロットによる正規性の確認をマスター出来れば、工程能力指数や管理図を遺憾なく利用出来るようになります。この辺りの正規分布を前提とした手法のネックがやはり
「これ正規分布なのか?」
ってところなので、ここを押さえる事が出来ればあなたの統計リテラシーはかなり向上し、市場価値もかなり高まると言えるでしょう。
またEZRにはほかの正規性検定もデフォルトで搭載されているので、併せて実施すれば判断を間違えることはないでしょう(シャピロ・ウィルク検定がQ-Qプロットの検定版なので相性が良い)。
正規性の判断は、統計学で重要でありながらも、その実非常に難易度が高いものが多いです。
これをマスターして、正しい統計を実践していきましょう。
今回使った元データのエクセルファイルはコチラです。
今すぐ、あなたが統計学を勉強すべき理由
この世には、数多くのビジネススキルがあります。
その中でも、極めて汎用性の高いスキル。
それが統計学です。なぜそう言い切れるのか?
それはビジネスというのは、結局お金のやり取りであり、必ず数字が絡んできます。
そして数字を扱うスキルこそが統計学だからです。
故に一口に統計学といっても、
営業、マーケティング、研究開発、品質管理、工程管理、生産管理.etc
これら全てで使う事が出来るのです。
現に私は前職は品質管理、現職は研究開発職なのですが、面接のときに
「品質管理時に活用した、統計の知識を研究開発にも活かせます」
とアピールして職種をうまく切り替える事が出来ました。
そして、もし始めるなら今から勉強を始めましょう。
なんなら、今すぐこのページを閉じて本格的に勉強を開始するべきです。
なぜなら、このような『スキル』は20代でもっともキャリアアップに繋がるからです。
30代ならいざ知らず、40代になると求められるのはこれまでの業務を遂行してきた経験や人脈なのです。
これが無いとある一定以上のキャリアアップは望めませんし、40代以降のハイクラスの転職先も望めません。
20代のうちは成果を結び付けるためにこのスキルが大いに役立ちますが、年を経るごとに求められる働き方が変わるのでスキルの実績への寄与が減ってしまうのです。
なので、後からやればいいやと後回しにすると機を逸してしまう可能性が高いです。
ちなみにこれから統計学を学習をするというのであれば、ラーニングピラミッドというものを意識すると効率的です。
私自身、インプットだけでなく、youtubeや職場でアウトプットしながら活用する事で統計リテラシーを日々向上させていっています。
ぜひ、アナタも当ブログやyoutubeチャンネルで統計リテラシーを上げて、どこでも通用するビジネスパーソンになりましょう
コメント