分散分析を用いると、注目している要素が結果に効果を与えているかを知ることが出来ます。
以前一元配置分散分析と二元配置分散分析に大別されると紹介していますが、この一元と二元は響きでは大差無いように思われますが、得られる情報量が大きく異なります。
今回は2元配置分散分析を紹介します。
原理だけは押さえて、実用はエクセルで行いましょう。
二元配置分散分析の計算方法
今回の二元配置分散分析を始めとした、分散分析の手法は以下の書籍を参考にしています。
多分この記事より面白いです(笑)。ぜひご一読ください。
分散分析の計算の流れ
原理的には一元配置分散分析です。
先述した交互作用は、繰り返しのある二元配置分散で導くことが出来ます。
『繰り返し』とは、全く同じ条件のN増し実験のことを指します。
一条件に対して、N=1の試験を対象にした分散分析を繰り返しの無い分散分析と言います。
さて二元配置分散における各変動を式で表すと、
総分散
$$\sum\sum\sum(x_{ijk}-\overline{\overline{x}})^2$$
群間変動
$$V_i=jk\sum(\overline{x_i}-\overline{\overline{x}})^2$$
$$V_j=ik\sum(\overline{x_j}-\overline{\overline{x}})^2$$
交互作用
$$V_k=k\sum\sum(\overline{x_{ij}}-\overline{\overline{x}})^2-(V_i+V_j)$$
群内変動(誤差)
$$V_g=V-(V_i+V_j+V_k)$$
ハイ、ピンときません
実際に計算してみよう
ある収穫物の収量に対して、肥料と土による効果を分散分析で評価してみましょう。
ここでは要因として肥料と土が挙がります(ちなみに全体の平均値は7になります)。
まず、肥料の効果ですが肥料1の平均値4と肥料2の平均値10がそれぞれのマスを埋めるイメージを持ってください。
この状態の変動(偏差平方和)を計算すると、
$$V_1=4×(4-7)^2+4×(10-7)^2=72$$
となります。
次は土です。
土の偏差平方和は
$$V_2=4×(5-7)^2+4×(9-7)^2=32$$
になります。そして交互作用です。
交互作用=肥料×土の作用ですので、以下のようなマスで考えます。
これで考えると、
$$2×(1-7)^2+2×(1-7)^2+2×(1-7)^2+2×(1-7)^2=112$$
この数字には肥料の変動と土の変動が混ざっていますから、引いてやります。
$$V_k=112-72-32=8$$
最後に誤差ですが、そもそもこの表は
$$総変動=126$$
ですから、そこから今まで算出した変動を総変動から差し引くと
$$誤差=126-(72+32+8)=14$$
これですべての変動が揃いましたが、この後F検定を実施するためにはそれぞれを自由度で引いてあげる必要があります。データの総数は8ですので
総変動の自由度=8-1=7
になります。
そしてそれぞれの自由度ですが、マス目の色の数から1を引くとその自由度になります。つまり
肥料の自由度=2-1
土の自由度=2-1
次に交互作用の自由度ですが、マスの色の数は4なので1を引くと3ですが、その後に肥料の自由度と土の自由度も引いてあげる必要があります。よって
交互作用の自由度=(4-1)-1-1=1
です。そして誤差の自由度は、総変動の自由度からこれまで算出した自由度すべてを引きます。
誤差=7-(1+1+1)=4
そして導かれた変動を自由度で割ると分散が算出されます。
これらをすべて表にまとめると、このようになります。
ここからF検定を実施していきましょう
F検定で効果を確認
F検定は誤差に対して、有意差があるのか否かを確認するので、F値は各要因と交互作用の分散を誤差の分散で除することで算出されます。
またF0.05ですが、今回は奇しくもすべて自由度1,4の組み合わせであり、7.7になります。
これらの計算結果を表にすると以下のようになります。
以上のようにF検定の結果、肥料と土にはそれぞれ有意差があるため効果があることが分かります。
そして交互作用は有意差が見られないので、交互作用は無いという事が分かります。
エクセルで分散分析しよう
まず、データタグのデータ分析をクリックし、分散分析:繰り返しの有る二元配置を選択します。
データ範囲を指定します。行数は繰り返しの反復数を入力します(要は一条件当たりのN数です)。
結果が出力されます。注目すべきは下方に位置されている表のP-値です。
標本が土で、列が肥料に当たります(これが分かりづらい)。
当初の分析結果通り、P-値が有意水準α=0.05を下回っている項目は土と肥料です。
交互作用は認められません。
まとめ
二元配置分散分析は使えるようになると、交互作用の有無を見つけることが出来ます。
交互作用が分かると、もしかしたらものすごい発見に繋がるかもしれません。
分析作業自体はエクセルで、極めて短時間で実施出来ますので、ぜひ使用してみて下さい。
今すぐ、あなたが統計学を勉強すべき理由
この世には、数多くのビジネススキルがあります。
その中でも、極めて汎用性の高いスキル。
それが統計学です。なぜそう言い切れるのか?
それはビジネスというのは、結局お金のやり取りであり、必ず数字が絡んできます。
そして数字を扱うスキルこそが統計学だからです。
故に一口に統計学といっても、
営業、マーケティング、研究開発、品質管理、工程管理、生産管理.etc
これら全てで使う事が出来るのです。
現に私は前職は品質管理、現職は研究開発職なのですが、面接のときに
「品質管理時に活用した、統計の知識を研究開発にも活かせます」
とアピールして職種をうまく切り替える事が出来ました。
そして、もし始めるなら今から勉強を始めましょう。
なんなら、今すぐこのページを閉じて本格的に勉強を開始するべきです。
なぜなら、このような『スキル』は20代でもっともキャリアアップに繋がるからです。
30代ならいざ知らず、40代になると求められるのはこれまでの業務を遂行してきた経験や人脈なのです。
これが無いとある一定以上のキャリアアップは望めませんし、40代以降のハイクラスの転職先も望めません。
20代のうちは成果を結び付けるためにこのスキルが大いに役立ちますが、年を経るごとに求められる働き方が変わるのでスキルの実績への寄与が減ってしまうのです。
なので、後からやればいいやと後回しにすると機を逸してしまう可能性が高いです。
ちなみにこれから統計学を学習をするというのであれば、ラーニングピラミッドというものを意識すると効率的です。
私自身、インプットだけでなく、youtubeや職場でアウトプットしながら活用する事で統計リテラシーを日々向上させていっています。
ぜひ、アナタも当ブログやyoutubeチャンネルで統計リテラシーを上げて、どこでも通用するビジネスパーソンになりましょう
コメント
交互作用のところで
2×(1−7)+2×(1−7)+2×(1−7)+2×(1−7)=112
とありますが、正しくは
2×(1−7)^2+2×(7−7)^2+2×(9−7)^2+2×(11−7)^2=112
ではないでしょうか。
その通りです。ご指摘ありがとうございました。修正しました。