一元配置分散分析の計算方法【実用はエクセルでやろう!】

バラツキ

分散分析は、注目している要因が効果をもたらしているかを検証する分析方法です。

今回は、最も単純な一元配置分散分析の計算の流れと、エクセルでの分散分析法を紹介します。

何をやっているのかを把握していれば、実際の計算はエクセルに任せてしまえば良いと思っていますので、暗記しようとせずに「ふ~ん、大体わかった」ってなったらOKだと思います。

スポンサーリンク

一元配置分散分析の計算方法

一元配置を始めとした分散分析の手法はこちらの書籍に詳しく書いてあります。

多分この記事より面白いです(笑)。ぜひご一読ください

分散分析の計算の流れ

基本的には、以前紹介したように群間変動群内変動を算出し、比較します。

数式だけで考えていくとややこしいので、例題とともに考えていきましょう。

自動車メーカーA,B,C,Dの同一エンジンの車の1L当たりの走行距離を考えた場合、メーカーごとに燃費の差が有るかどうかを考えてみます。

この表における同一メーカー内の”ばらつき”と比較してメーカー毎の平均値の”ばらつき”が大きければ、効果があると言えます。

分散分析における群内変動と群間変動は以下の式で表されます。

$$総変動=群内変動+群間変動$$

$$V=\sum_{i=1}^{m}\sum_{j=1}^{n_i}(x_{ij}-\overline{\overline{x}})^2=\sum_{i=1}^{m}\sum_{j=1}^{n_i}(x_{ij}-\overline{x_i})^2+\sum_{i=1}^{m}n_i(\overline{x_i}-\overline{\overline{x}})^2=V_1+V_2$$

V1が群内変動で、V2が群間変動です。

まず、群内変動に注目すると、

$$V_1=(12.3-12.8)^2+(12.9-12.9)^2+(13.0-12.9)^2+・・・+(14.6-13.4)^2=12.0$$

になります。

一方群間変動は

$$V_2=4×(12.9-12.8)^2+7×(13.0-12.8)^2+4×(11.8-12.8)^2+5×(13.4-12.8)^2=6.09$$

となります。この群間変動が、なぜ同じ偏差平方にn数掛ける理由が分かりづらいと思います。

こちらに関しては以下の表を見て頂くと分かりやすいです。

このように、群内変動が0であるという仮定で、すべてサンプルがその群の平均になった場合で計算しているため、各偏差平方をサンプルサイズの個数足し合わせているのです。

さて、ここでF検定に入りたいのですが、まだ実施することは出来ません。

ここで算出したV1とV2は偏差平方和であって、分散ではないためこれらを自由度で割って分散に変換する必要があります。

自由度は

群間変動は群の数-1なので、4-1=3になります。

群内変動ですが、これは表全体の自由度n-1から先ほどの群間変動の自由度m-1を引いたn-mになります。つまり20-4=16になります。

よって、各分散値は

$$群内分散s_1^2=\frac{V_1}{n-m}=\frac{12.0}{16}=0.75$$

$$群間分散s_2^2=\frac{V_2}{m-1}=\frac{6.09}{3}=2.03$$

になります。

F検定で効果の確認

そしてF検定を実施して、群間分散が群内分散より有意差が出るほど大きいかどうかを確認します。

F検定の詳細は以下の記事を参照ください。

自由度3と16のF値は

$$F_{16}^3(0.05)=3.24$$

そして今回のF=群間分散/群内分散は

$$F_0=\frac{s_2^2}{s_1^2}=\frac{2.03}{0.75}=2.71$$

そしてF値同士を比較すると、

$$F_{16}^3(0.05)=3.24>F_0=2.71$$

となり、有意差がないためメーカー毎に燃費の差が有るとは言えない、という結論になります。

つまり、メーカー別で低燃費の車を見つけようとしても、ムダということです。

エクセルで分析してみよう

偏差平方和の計算は実際に行うと、かなり面倒なので実用ではエクセルのデータ分析ツールを使いましょう。

データは先述の自動車メーカー別の燃費(kg/L)を使います。

まずデータタグ分析ツールを選び、その中の分散分析:一元配置を選択します。

次に、分析対象のデータを選択。データ方向要因の並び方向の事で今回メーカーは横(列方向)に並んでいるのでを選びます。

有意水準はα=0.05で、先頭行をラベルとして使用にチェックを入れると、要因名(今回はA,B,C,D)が表示されます。

これで結果が出力されます。

着目する点はP-値です。この値が有意水準α(=0.05)を下回っていたら有意差ありと判断します。

今回の結果は、P-値が0.05より大きい(<0.08)なので有意差なしです。

スポンサーリンク

まとめ

今回は一元配置分散分析を紹介しました。

今回の結果から分かる通り、分散分析では要因による効果の有無を知ることが出来ます。

要因の有効性が分かるという事は、有効ではない要因に割く時間を削減することが出来るという事です。

研究開発を実施する際に、条件振りをすると思いますが、その条件が効果に寄与しないものであった場合、時間をムダに浪費することになりかねません。

きっちり分散分析を実施し、効率よく実験を行いましょう。

【Udemy】ビジネスに最低限必要なExcelスキルだけ磨く!データ分析基本編【今なら88%OFF】

おススメ記事

コメント