平均値の差の検定はwelchのt検定を使おう

平均

分布の平均値が特定の値と等しいかどうかを検定する方法として、t検定を紹介しました。

ですがこの時に紹介した方法では、平均値の差の検定は実施出来ません。

正直な話、仕事では特定の値と平均値を比較するよりも、平均値同士の比較をする機会の方がずっと多いはずです。

今回は、2群の平均値の差の検定に使用出来るwelchのt検定について紹介します。

動画でも紹介しています。こちらもぜひご覧ください。

スポンサーリンク

welchを紹介する前に

なぜ通常のt検定の式が使えないのか?

そもそも、なぜ以前紹介したt検定の式が平均値の差の検定に使用出来ないのでしょうか。

それは式の中に”ばらつき”の要素が一つしか組み込まれていないからです。

$$t=\frac{μ-μ_0}{s/\sqrt{n}}$$

比較する2つの分布には、それぞれに”ばらつき”が存在する為に2種の標準偏差を組み込まなければ検定がうまくいかないという事は、容易に想像頂けると思います。

等分散のt検定

welchのt検定を紹介する前に、まず通常のt検定を変形させた等分散のt検定を紹介します。

等分散のt検定は、その名が示す通り分布の”ばらつき”が等しい場合に適用可能なt検定です。

$$t=\frac{x_1-x_2}{\sqrt{σ^2(\frac{1}{n_1}+\frac{1}{n_2})}}$$

このようにそれぞれの分布のサンプルサイズを適用する形になっています。

しかしながら、この形では先ほどの2つの”ばらつき”が組み込まれていません。

そこでもう一工夫します。

$$σ^2=\frac{(n_1-1)σ_1^2+(n_2-1)σ_2^2}{(n_1-1)+(n_2-1)}$$

このように、2つの分布の分散を一つにまとめてしまいます。このような分散を合併分散といいます。

しかしこの合併分散は2つの分散同士に有意差がないこと、つまり等分散であることが適用の条件になります。

故に2つの分散に有意差がないことを事前に確認する必要があります。

その為に、この等分散のt検定を実施する前にF検定を実施するのが通例となっています。

等分散のt検定は使わない方が良い理由

等分散のt検定を使用する場合は、F検定で分散に有意差がないことを確認する必要があります。

しかしながら、検定の多重性の問題があるため、昨今ではF検定⇒t検定は実施しない方が良いとされています。

スポンサーリンク

Welchのt検定

welchのt検定の式

Welchのt検定の式は以下になります。

$$t=\frac{x_1-x_2}{\sqrt{\frac{σ_1^2}{n_1}+\frac{σ_2^2}{n_2}}}$$

分母にそれぞれの不偏分散値が適用されただけの、シンプルな変化です。

ですが、これで分布同士の分散が異なっていても検定を実施することが可能になります。

ただ少し厄介なのは自由度の算出が複雑だという事です。

$$自由度=\sqrt{\frac{σ_1^2}{n_1}+\frac{σ_2^2}{n_2}}÷[\frac{(\frac{σ_1^2}{n_1})^2}{n_1-1}+\frac{(\frac{σ_2^2}{n_2})^2}{n_2-1}]$$

かなり複雑です。

どう考えても計算したくないのですが、幸いにもエクセルの分析ツールを使用することで、この一連の流れを自動で実施することが出来ます。

2群のt検定はwelchだけ使えば良い

先述した通り、多重性の問題で分散が等しいかどうかを確認することを前提として検定を進めることは避けた方が良いです。

最近の教科書でもF検定で分散の有意差を確認した上で、異分散だった場合にwelchのt検定を実施すると記述しているものが多いですが、welchのt検定は等分散でも有効です。

昔は自由度の計算が大変だからか、等分散だったら通常のt検定で実施とされてきましたが、現在はエクセルにもwelchのt検定は実装されていますから、分散が同じだろうが異なろうがwelchのt検定を実施すれば良いのです。

スポンサーリンク

まとめ

今回はwelchのt検定を紹介しました(ついでに等分散のt検定も)。

計算が複雑ではありますが、再三述べたように面倒くさい計算はエクセルに任せてしまいましょう。

エクセルやその他分析ツールの発展で、従来複雑だった統計ツールは使用そのものはとても簡単になってきています。

この現状において重要なのは、計算が出来るかできないかではなく、手法を正しく運用できるかどうかです。

統計を勉強する際には、そういった不自然な箇所を見定め、正しい運用法の習得に努めましょう。

スポンサーリンク

今すぐ、あなたが統計学を勉強すべき理由

この世には、数多くのビジネススキルがあります。

その中でも、極めて汎用性の高いスキル。

それが統計学です。なぜそう言い切れるのか?

それはビジネスというのは、結局お金のやり取りであり、必ず数字が絡んできます。

そして数字を扱うスキルこそが統計学だからです。

故に一口に統計学といっても、

営業、マーケティング、研究開発、品質管理、工程管理、生産管理.etc

これら全てで使う事が出来るのです。

現に私は前職は品質管理、現職は研究開発職なのですが、面接のときに

「品質管理時に活用した、統計の知識を研究開発にも活かせます」

とアピールして職種をうまく切り替える事が出来ました。

そして、もし始めるなら今から勉強を始めましょう。

なんなら、今すぐこのページを閉じて本格的に勉強を開始するべきです。

なぜなら、このような『スキル』は20代でもっともキャリアアップに繋がるからです。

30代ならいざ知らず、40代になると求められるのはこれまでの業務を遂行してきた経験や人脈なのです。

これが無いとある一定以上のキャリアアップは望めませんし、40代以降のハイクラスの転職先も望めません。

20代のうちは成果を結び付けるためにこのスキルが大いに役立ちますが、年を経るごとに求められる働き方が変わるのでスキルの実績への寄与が減ってしまうのです。

なので、後からやればいいやと後回しにすると機を逸してしまう可能性が高いです。

ちなみにこれから統計学を学習をするというのであれば、ラーニングピラミッドというものを意識すると効率的です。

私自身、インプットだけでなく、youtubeや職場でアウトプットしながら活用する事で統計リテラシーを日々向上させていっています。

ぜひ、アナタも当ブログやyoutubeチャンネルで統計リテラシーを上げて、どこでも通用するビジネスパーソンになりましょう

スポンサーリンク
平均 検定 比較
スポンサーリンク
シグマアイ-仕事で使える統計を-

コメント