尖度と歪度で正規分布かどうか検定をしよう

分布

統計学の分析手法において、メジャーなものは悉くが正規分布を前提とした手法です。

という事は、分析対象とするデータが正規分布をしているのか否か。

これが非常に重要なわけです。

データが正規分布か否かを知るための分析を、正規性の分析と言ったりするのですが、今回はいくつかある正規性の分析の中の、尖度(せんど)歪度(わいど)の検定について解説をしていきます。

いきなり尖度だ歪度だと言われても、何のことやらさっぱりという方も多いでしょう。

その辺のところも含めて解説していきますので、目くじら立てずに聞いていってくださいね。

スポンサーリンク

尖度と歪度とは?

正規分布を特徴づける代表値

通常正規分布の形状を決定づける因子として、解説されるのは平均値標準偏差の2つです。

故に、統計的な分析において平均値と標準偏差の登場頻度が非常に多いわけです。

ですが、実のところこの2つの統計量とは別に正規分布を特徴づける値が存在します。

それが、尖度と歪度です。

正規分布を形成するときに、標準正規分布の尖度と歪度は一定の値を取ります。

故に、尖度と歪度の値がその一定の値と一致しているかどうかを検定する事で、正規分布であるか否かを確認することが出来るのです。

それでは、その尖度と歪度とは一体何を表す値なのでしょうか。

尖度とは?

尖度とは分布の尖り具合、もしくは裾野の伸び具合を示した数値です。

以下の数式で与えられます。

$$b_2=\frac{n\sum{(X-\overline{X})^4}}{[\sum{(X-\overline{X})^2}]^2}$$

実際にヒストグラムを書くとき、この尖り具合がどの程度であれば正規分布と言えるのか、見た目で判断することは難しいです。

なので尖度を計算して見える化し、正規分布である場合の尖度と比較することで正規性を検定することが出来ます。

先程の図でも書いてありますが、先ほどの式で計算すると正規分布の尖度は「3」になります

検定は

$$H0:b2=3$$

という尖度=3(つまり正規分布に等しいか)を帰無仮説として実施することになります。

まずb2をb2*に変換する必要があります。

$$b_2^*=\sqrt{\frac{(n+1)^2(n+3)(n+5)}{24n(n-2)(n-3)}}[b_2-\frac{3(n-1)}{n+3}]$$

このb2*に対して

$$b_2^*>u_{α/2}+\frac{\sqrt{6}}{\sqrt{n}}(u_{α/2}^2-1)$$

もしくは

$$b_2^*<-u_{α/2}+\frac{\sqrt{6}}{\sqrt{n}}(u_{α/2}^2-1)$$

となった場合、H0が棄却されて尖度≠3(つまり正規分布ではない)と検定されます。

ちなみに、uα/2は有意水準αのときの標準正規分布の上側100%α点です(有意水準α=5%の時は1.96)。

特に尖度は、線対称な分、一見すると正規分布に見えてしまいます。

そういう意味でも、正規分布かどうかを確認する際に尖度を検定出来れば、見た目に騙されなくて済むため、覚えておくと結構便利です。

歪度とは?

歪度とは分布が対称であるかを示す値です。

以下の式で与えられる数値になります。

$$\sqrt{b_1}=\frac{\sqrt{n}\sum{(X-\overline{X})^3}}{[\sum{(X-\overline{X})^2}]^{3/2}}$$

実際に採取したデータでヒストグラムを書くと、対称性が保たれていないことの方が多いです。

なんとなく、真ん中あたりが一番高くて、なんとなく均等に広がっているヒストグラムを見ると、

「あっ正規分布だ!」

と捉えてしまう事があると思うのですが、この歪度という観点からも、それがいかに危険かよく分かると思います。

完全な線対称のヒストグラムはまずありえないので、どの程度が今日範囲の歪みなのかは非常に重要なわけです。

歪度を使えば、どの程度許容可能か判断出来るわけです。

そして、正規分布の歪度は「0」です。

先ほど述べた対称性のズレというのは、無論同データから導き出せる平均値と標準偏差から作図される正規分布に対してのズレという意味です(正規分布はの形状は平均値と標準偏差で決定されます)。

データの正規性を歪度に注目して検定する場合は、

$$H0:\sqrt{b_1}=0$$

という歪度=0(正規分布に等しいか)を帰無仮説として実施することになります。

歪度による正規性の検定は、以下の式で行います。

$$|\sqrt{b_1}|>\sqrt{\frac{(n+1)^2(n+3)(n+5)}{24n(n-2)(n-3)}}[u_{α/2}+\frac{3}{2n}(u_{α/2}^3-3u_{α/2})]$$

uα/2は有意水準αのときの標準正規分布の上側100%α点です(有意水準α=5%の時は1.96)。

上式が成立した場合、H0帰無仮説を棄却します(つまり正規性は無いとなります)。

歪度の影響は特に片側検定の場合に、大きくなると言われています。

スポンサーリンク

まとめ

正規分布の形は、平均値と標準偏差で決定づけられますが、分布を特徴づける値としては更に尖度と歪度が存在します。

ヒストグラムで正規性を目視判断しようとすると、必ずある程度尖ったり、歪んだりするので中々難しいものがあります。

なので、尖度と歪度での正規性の検定が出来るようになれば、そういったものに胡麻化される可能性が低くなります・・・が、

ここまで読んで頂いた方なら分かって頂けると思いますが、式がめっちゃ面倒くさいです。

私自身、正直に白状すると、これらの手法で正規性の検定を実施した事ありません。

Q-Qプロットシャピロ-ウィルクの検定の方が、実用的で分析ツール的にも簡単です。

尖度と歪度は、「そんなものもあるんだな、気をつけよう」

くらいに捉えて、ぜひQ-Qプロットとシャピロ-ウィルクを使ってみて下さい。

便利ですよ。

スポンサーリンク

今すぐ、あなたが統計学を勉強すべき理由

この世には、数多くのビジネススキルがあります。

その中でも、極めて汎用性の高いスキル。

それが統計学です。なぜそう言い切れるのか?

それはビジネスというのは、結局お金のやり取りであり、必ず数字が絡んできます。

そして数字を扱うスキルこそが統計学だからです。

故に一口に統計学といっても、

営業、マーケティング、研究開発、品質管理、工程管理、生産管理.etc

これら全てで使う事が出来るのです。

現に私は前職は品質管理、現職は研究開発職なのですが、面接のときに

「品質管理時に活用した、統計の知識を研究開発にも活かせます」

とアピールして職種をうまく切り替える事が出来ました。

そして、もし始めるなら今から勉強を始めましょう。

なんなら、今すぐこのページを閉じて本格的に勉強を開始するべきです。

なぜなら、このような『スキル』は20代でもっともキャリアアップに繋がるからです。

30代ならいざ知らず、40代になると求められるのはこれまでの業務を遂行してきた経験や人脈なのです。

これが無いとある一定以上のキャリアアップは望めませんし、40代以降のハイクラスの転職先も望めません。

20代のうちは成果を結び付けるためにこのスキルが大いに役立ちますが、年を経るごとに求められる働き方が変わるのでスキルの実績への寄与が減ってしまうのです。

なので、後からやればいいやと後回しにすると機を逸してしまう可能性が高いです。

ちなみにこれから統計学を学習をするというのであれば、ラーニングピラミッドというものを意識すると効率的です。

私自身、インプットだけでなく、youtubeや職場でアウトプットしながら活用する事で統計リテラシーを日々向上させていっています。

ぜひ、アナタも当ブログやyoutubeチャンネルで統計リテラシーを上げて、どこでも通用するビジネスパーソンになりましょう

スポンサーリンク
分布 検定
スポンサーリンク
シグマアイ-仕事で使える統計を-

コメント