以下の記事で、検定の考え方を紹介してきました。
今回は検定の手法で最も基本的なz検定を紹介いたします。
紹介前のネタバレですが、仕事ではz検定を使う機会はまずありません。実際にはt検定を使うことになります。
しかしながら、z検定を理解すると、t検定はすんなり理解できます。
それでは行きましょう!
動画でもアップしています。ぜひご覧ください。
統計学がうまく使えなかった人はコチラ⇒統計学を活かす 解析しやすい数値化のノウハウ
Z検定とは
平均値についての有意差検定
z検定は標準正規分布を使った、平均値の検定のことを指します。
以下の記事を読んで頂くと、今からの内容はかなりスムーズに理解いただけるはずです。
zというのは正規分布から標準正規分布に変化するときの
$$z=\frac{μ-μ_0}{σ/\sqrt{n}}$$
のことを指します(このような値を検定統計量といいます)。
基本的な検定の流れは、
・帰無仮説H0:μ=μ0と対立仮説H1:μ≠μ0を(もしくはμ>μ0 μ<μ0)設定
・有意水準αを決める 通常はα=0.05か0.01とする。
・検定統計量zを算出する。
・標準正規分布表で有意水準に相当するz0を確認する(α=0.05の場合はz0≒1.64)。
・検定統計量zとz0を比較し、z>z0だった場合対立仮説を採択し有意差があると判断する
になります。
サンプルサイズnが大きくなるほど、有意差が出やすくなります。
≠(ノットイコール)の場合は両側検定になり、有意水準αを2で割ったα/2でz0を確認します。α=0.05の場合は、α/2=0.025なのでz0=1.96になります。
なのでα=0.05の場合
両側検定:z<-1.96もしくはz>1.96(H1 μ≠μ0)
片側検定:z<-1.64(H1 μ<μ0) もしくはz>1.64(H1 μ>μ0)
となれば有意差ありとなります。
試しにやってみよう!
平均値1.000インチの軸棒を標準偏差0.03の製造ラインに対して、10本のサンプルを抜き取って測定したところ平均値が0.978インチでした。
μ0=1.000、μ=0.978、s=0.03 n=10です。
このサンプリングの平均値は管理上以上が無いかどうか検定してみましょう。
帰無仮説 H0:μ0=1.000
この場合検定結果は太すぎても、細すぎてもNGです。このような場合は両側検定を実施します。よって
対立仮説H1:μ0≠1.000
有意水準α=0.05とした場合、z0は1.96 or -1.96です。
そして検定統計量zは
$$z=\frac{μ-μ_0}{σ/\sqrt{n}}=\frac{0.978-1.000}{0.03/\sqrt{10}}≒-2.32$$
になります。z0とzを比較すると
$$z=-2.32 < -1.96$$
ですから、H0を棄却し有意差ありと判定されます。
こうしてみるとそれほど難しくないと思います。
実用性に難のある検定?
平均値の検定が出来ると、今まであった
「この平均値同士って差があるって言えるんだろうか?」
という悩みを解決出来ます。
とっても便利そうです。しかしながら、このz検定はあまり実用的であるとは言えません。
なぜでしょうか?
前提条件が厳しい
z検定を実施するにはいくつかの前提が必要です。
・母集団の母数(平均値、標準偏差)が既知であること。
・母集団が正規分布であること
母数が既知であることというのはかなり厳しいです。
そもそも、検定で知りたい情報というのは母集団の母数が知りたいからのはずで、ぶっちゃけた話「それが分かればこんな事しないっつーの」といった感じです。
また母集団が正規分布である必要もあります。ただこれに関して言えばサンプルサイズが十分に大きければ中心極限定理により平均値の正規分布が形成されるので、特に問題なく解決することが出来ます。
ちなみにこの時のサンプルサイズは30~40程度らしいです。
最も分かりやすい検定
このようにz検定はフローと計算そのものは極めて簡単ではありますが、実用のための条件が厳しめです。
実用の際にはこのz検定を変形したt検定を行うことが一般的です。
「ならこのz検定の説明不要じゃないか?」と言われそうですが、そうでもありません。
別記事でt検定を紹介するときに詳細な解説をいたしますが、t検定の検定統計量はzの標準偏差を不偏標準偏差に切り替えるだけですし、使用する分布も標準正規分布に極めてよく似たt分布を扱うため、基本的に同様のフローで検定することが出来ます。
ゆえにz検定の概要を把握しておくとt検定への理解が早まります。
z検定は検定の基本形であると言えるのです。
基本は大事ですよ。
まとめ
今回はz検定を紹介いたしました。
以前に紹介した検定についての考え方を押さえておけば、それほど難しくないと思います。
先述したようにあまり実用向きではありませんが、z検定を押さえておけば他の検定への理解が早まります。
そして基本を押さえる事は、勉強を進めていくうえでも、そして仕事で活かしていく上でも非常に重要な事です。
コンテンツ紹介
昨今機械学習やディープラーニングなど、データを扱うための知識の重要度は日々増していっています。
そんな最先端のスキルを使いこなすには、土台となる統計学の知識が必要不可欠です。
しかしながら、統計学は本で読んでも何とか理論は理解できてもそこからどのように実務に活かしたら良いのか分からない。そんな机上と現実のギャップが凄まじい学問です。
そんな机上と現実のギャップを埋めるために、私は当サイトをはじめ様々なコンテンツを展開しています。
youtubeでは登録者1万人の統計学のチャンネルを運用しています。
動画投稿だけでなく、週2回のコメントに来た質問への回答配信も行っているので気になる方はどしどし質問をお寄せください。
youtubeでは無料動画だけでなく、有料のメンバーシップ限定動画も運用しています。
メンバーシップ登録リンク(押しただけで登録はされないので、気軽にクリックしてください)
エクセルやJAMOVIといった無料で使える統計ツールの実際の使い方。そして無料動画では敷居の高い(というよりマニアックゆえに再生数が見込めない(笑))解説動画をアップしています。
本を読んで実際に分析してみようと思ったけど、どうもうまくいかなかった。本では見かけない、あるいは難しすぎて扱えない手法があったという方。ぜひ一度ご参加ください(動画のリクエストがあれば反映させます)
「そうは言われても、うちのデータは統計学じゃ分析出来ないよ」
そういう方もいらっしゃると思います。私の経験上、そういったデータ分析が出来ない状況の一つとして量的変数として目の前の現象を扱えていないというものがあります。
私のnoteでは、過去私が製品開発を行う上で実践した分析しやすい数値の測定方法を公開しています。
私が開発活動する上で創意工夫を凝らして編み出してきたアイデアの数々を公開しています(私の知見が増えたら更新していきます)。本やネットではまず載っていません。うまい測定方法のアイデアが浮かばないという方はぜひこちらをご覧ください。
「いや、その前に使える手法を体系的に学びたいんだけど」
そんな方には、udemyの講座を推奨します。
初歩的な標準偏差から、実験計画法、多変量解析まで、実際に私が実用する上で本当に使用したことがある手法に絞って順序立てて解説しています。
どの手法が結局使えますのん?という方はぜひこちらをお求めください。
こんな感じで、様々なコンテンツを展開しています。
今後は品質工学や品質管理に重点を絞ったコンテンツなども発信していきます。
ぜひリクエストがありましたら、それらも反映させていきますのでまずはお気軽にご意見くださいな。
コメント