以前z検定を紹介しました。
正規分布を利用して平均値の検定を実施出来るものですが、ある程度の標本数が必要だったり母数が必要だったりと制限も多かったです。
そこで一般的に平均値の検定を行う際は、今回紹介するt検定を使用します。
このt検定では、母数が分かっておく必要もありませんし、サンプルサイズも10ちょっと程度で十分です。
それでは参りましょう!
動画もアップしています。
t検定とは何か?
z検定の小標本バージョン
簡単に言えば、z検定を実用に耐えれるものに変換したものです。
検定統計量としてzの代わりにt値を使い、正規分布の代わりにt分布を使用します。
t値の式は
$$t=\frac{μ-μ_0}{s/\sqrt{n}}$$
z値と比較してみて下さい
$$z=\frac{μ-μ_0}{σ/\sqrt{n}}$$
分母の標準偏差がσ(=母集団の標準偏差)からs(不偏標準偏差)に変わっているだけです。
通常は母標準偏差ではなく、不偏標準偏差しか分からないはずですから実際に使用するのはt検定で良いのです。
またt分布ですが、以下のような形をしています。
t分布は自由度というサンプルサイズから1引いた数字で、分布形状が決定します。
そして自由度n-1が増えるに従い裾野が狭くなり、正規分布に近づいていきます。
つまりサンプルサイズが小さければ、そのサンプルサイズに適したt分布を使って検定を実施することになり、サンプルサイズに適した精度(サンプルが少ない時には、それなりに悪い結果)で検定を実施することが出来ます。
このサンプルサイズに対応して分布の形が変わる点が、z検定にない強みです。
z検定ではどのようなサンプルサイズでも、形が変わらない(標準)正規分布を使うしかないので、正規分布に見合うだけのサンプルサイズを準備する必要があるのです。
基本的なt検定の方法
t検定の流れを追ってみよう
t検定の方法は、これまで紹介してきた検定の方法と同様です。
実際にやってみましょう。とりあえず以前のz検定と同じ数字でやってみます。
『平均値1.000インチの軸棒を標準偏差0.03の製造ラインに対して、10本のサンプルを抜き取って測定したところ平均値が0.978インチでした。』
μ0=1.000、μ=0.978、s=0.03 n=10です。
帰無仮説 H0:μ0=1.000
この場合検定結果は太すぎても、細すぎてもNGです。このような場合は両側検定を実施します。よって
対立仮説H1:μ0≠1.000
有意水準α=0.05とします。そして今回n=10なので自由度n-1=9になります。
自由度9のt分布で、α/2=0.025はt0=-2.26 or 2.26になります。
検定統計量tは
$$t=\frac{μ-μ_0}{σ/\sqrt{n}}=\frac{0.978-1.000}{0.03/\sqrt{10}}≒-2.32$$
になります。t0とtを比較すると
$$t=-2.32 < -2.26$$
ですから、H0を棄却し有意差ありと判定されます。
z検定とt検定の結果を比較してみよう
今回も前回同様有意差ありという判定になりました。
じゃあz検定でもよくないか?と疑問に思う方もいるでしょうが、ここで分布からのt0値とz0値を比較してみましょう。
t(0.025):-2.26 z(0.025):-1.96
このように、t0の方が数字が小さい(大きい)です。これはt検定の方が『有意差あり』になりにくいことを示しています。
実際に前回は2.32-1.96=0.36の差がありましたが、今回は2.32-2.26=0.06の差しかありません。
本当にギリギリのところで有意差ありとなっています。
逆に言えば、z検定の方が『有意差あり』になりやすい、つまり第一種の過誤になりやすいことを意味しています。
第一種の過誤は第二種の過誤よりも危険度が高いとされていますから、z検定の方がt検定よりも危険な判断ミスにつながりやすいと言えます。
1標本のt検定
今回示した式及び例は標本を一つだけ準備して、比較対象の平均値と比較する手法になります。
この手法を1標本のt検定といいます。
“1標本”とわざわざ名前を付けますから、当然2標本のt検定も存在します。
2標本のt検定は式の形がもう少し変わりますし、また標本同士のデータの対応の有無でまた方法が多少変化します。
長くなるので、また別の機会に紹介します。
今回はz検定⇒t検定の変形を理解して頂ければと思い、1標本のt検定に説明を留めています。
まとめ
今回は1標本のt検定を紹介しました。
この検定を使用すれば、ある特定の値と実際の値に差があるかを確認出来ます。
カタログ値と実測値でこの検定を行うと、中身が本当にカタログ通りなのかを判定出来ます。
ぜひ一度試してみて下さい。
今すぐ、あなたが統計学を勉強すべき理由
この世には、数多くのビジネススキルがあります。
その中でも、極めて汎用性の高いスキル。
それが統計学です。なぜそう言い切れるのか?
それはビジネスというのは、結局お金のやり取りであり、必ず数字が絡んできます。
そして数字を扱うスキルこそが統計学だからです。
故に一口に統計学といっても、
営業、マーケティング、研究開発、品質管理、工程管理、生産管理.etc
これら全てで使う事が出来るのです。
現に私は前職は品質管理、現職は研究開発職なのですが、面接のときに
「品質管理時に活用した、統計の知識を研究開発にも活かせます」
とアピールして職種をうまく切り替える事が出来ました。
そして、もし始めるなら今から勉強を始めましょう。
なんなら、今すぐこのページを閉じて本格的に勉強を開始するべきです。
なぜなら、このような『スキル』は20代でもっともキャリアアップに繋がるからです。
30代ならいざ知らず、40代になると求められるのはこれまでの業務を遂行してきた経験や人脈なのです。
これが無いとある一定以上のキャリアアップは望めませんし、40代以降のハイクラスの転職先も望めません。
20代のうちは成果を結び付けるためにこのスキルが大いに役立ちますが、年を経るごとに求められる働き方が変わるのでスキルの実績への寄与が減ってしまうのです。
なので、後からやればいいやと後回しにすると機を逸してしまう可能性が高いです。
ちなみにこれから統計学を学習をするというのであれば、ラーニングピラミッドというものを意識すると効率的です。
私自身、インプットだけでなく、youtubeや職場でアウトプットしながら活用する事で統計リテラシーを日々向上させていっています。
ぜひ、アナタも当ブログやyoutubeチャンネルで統計リテラシーを上げて、どこでも通用するビジネスパーソンになりましょう
コメント