分散分析を用いると、注目している要素が結果に効果を与えているかを知ることが出来ます。
以前一元配置分散分析と二元配置分散分析に大別されると紹介していますが、この一元と二元は響きでは大差無いように思われますが、得られる情報量が大きく異なります。
今回は2元配置分散分析を紹介します。
原理だけは押さえて、実用はエクセルで行いましょう。
統計学がうまく使えなかった人はコチラ⇒統計学を活かす 解析しやすい数値化のノウハウ
二元配置分散分析の計算方法
今回の二元配置分散分析を始めとした、分散分析の手法は以下の書籍を参考にしています。
多分この記事より面白いです(笑)。ぜひご一読ください。
分散分析の計算の流れ
原理的には一元配置分散分析です。
先述した交互作用は、繰り返しのある二元配置分散で導くことが出来ます。
『繰り返し』とは、全く同じ条件のN増し実験のことを指します。
一条件に対して、N=1の試験を対象にした分散分析を繰り返しの無い分散分析と言います。
さて二元配置分散における各変動を式で表すと、
総分散
$$\sum\sum\sum(x_{ijk}-\overline{\overline{x}})^2$$
群間変動
$$V_i=jk\sum(\overline{x_i}-\overline{\overline{x}})^2$$
$$V_j=ik\sum(\overline{x_j}-\overline{\overline{x}})^2$$
交互作用
$$V_k=k\sum\sum(\overline{x_{ij}}-\overline{\overline{x}})^2-(V_i+V_j)$$
群内変動(誤差)
$$V_g=V-(V_i+V_j+V_k)$$
ハイ、ピンときません
実際に計算してみよう
ある収穫物の収量に対して、肥料と土による効果を分散分析で評価してみましょう。
ここでは要因として肥料と土が挙がります(ちなみに全体の平均値は7になります)。
まず、肥料の効果ですが肥料1の平均値4と肥料2の平均値10がそれぞれのマスを埋めるイメージを持ってください。
この状態の変動(偏差平方和)を計算すると、
$$V_1=4×(4-7)^2+4×(10-7)^2=72$$
となります。
次は土です。
土の偏差平方和は
$$V_2=4×(5-7)^2+4×(9-7)^2=32$$
になります。そして交互作用です。
交互作用=肥料×土の作用ですので、以下のようなマスで考えます。
これで考えると、
$$2×(1-7)^2+2×(1-7)^2+2×(1-7)^2+2×(1-7)^2=112$$
この数字には肥料の変動と土の変動が混ざっていますから、引いてやります。
$$V_k=112-72-32=8$$
最後に誤差ですが、そもそもこの表は
$$総変動=126$$
ですから、そこから今まで算出した変動を総変動から差し引くと
$$誤差=126-(72+32+8)=14$$
これですべての変動が揃いましたが、この後F検定を実施するためにはそれぞれを自由度で引いてあげる必要があります。データの総数は8ですので
総変動の自由度=8-1=7
になります。
そしてそれぞれの自由度ですが、マス目の色の数から1を引くとその自由度になります。つまり
肥料の自由度=2-1
土の自由度=2-1
次に交互作用の自由度ですが、マスの色の数は4なので1を引くと3ですが、その後に肥料の自由度と土の自由度も引いてあげる必要があります。よって
交互作用の自由度=(4-1)-1-1=1
です。そして誤差の自由度は、総変動の自由度からこれまで算出した自由度すべてを引きます。
誤差=7-(1+1+1)=4
そして導かれた変動を自由度で割ると分散が算出されます。
これらをすべて表にまとめると、このようになります。
ここからF検定を実施していきましょう
F検定で効果を確認
F検定は誤差に対して、有意差があるのか否かを確認するので、F値は各要因と交互作用の分散を誤差の分散で除することで算出されます。
またF0.05ですが、今回は奇しくもすべて自由度1,4の組み合わせであり、7.7になります。
これらの計算結果を表にすると以下のようになります。
以上のようにF検定の結果、肥料と土にはそれぞれ有意差があるため効果があることが分かります。
そして交互作用は有意差が見られないので、交互作用は無いという事が分かります。
エクセルで分散分析しよう
まず、データタグのデータ分析をクリックし、分散分析:繰り返しの有る二元配置を選択します。
データ範囲を指定します。行数は繰り返しの反復数を入力します(要は一条件当たりのN数です)。
結果が出力されます。注目すべきは下方に位置されている表のP-値です。
標本が土で、列が肥料に当たります(これが分かりづらい)。
当初の分析結果通り、P-値が有意水準α=0.05を下回っている項目は土と肥料です。
交互作用は認められません。
まとめ
二元配置分散分析は使えるようになると、交互作用の有無を見つけることが出来ます。
交互作用が分かると、もしかしたらものすごい発見に繋がるかもしれません。
分析作業自体はエクセルで、極めて短時間で実施出来ますので、ぜひ使用してみて下さい。
コンテンツ紹介
昨今機械学習やディープラーニングなど、データを扱うための知識の重要度は日々増していっています。
そんな最先端のスキルを使いこなすには、土台となる統計学の知識が必要不可欠です。
しかしながら、統計学は本で読んでも何とか理論は理解できてもそこからどのように実務に活かしたら良いのか分からない。そんな机上と現実のギャップが凄まじい学問です。
そんな机上と現実のギャップを埋めるために、私は当サイトをはじめ様々なコンテンツを展開しています。
youtubeでは登録者1万人の統計学のチャンネルを運用しています。
動画投稿だけでなく、週2回のコメントに来た質問への回答配信も行っているので気になる方はどしどし質問をお寄せください。
youtubeでは無料動画だけでなく、有料のメンバーシップ限定動画も運用しています。
メンバーシップ登録リンク(押しただけで登録はされないので、気軽にクリックしてください)
エクセルやJAMOVIといった無料で使える統計ツールの実際の使い方。そして無料動画では敷居の高い(というよりマニアックゆえに再生数が見込めない(笑))解説動画をアップしています。
本を読んで実際に分析してみようと思ったけど、どうもうまくいかなかった。本では見かけない、あるいは難しすぎて扱えない手法があったという方。ぜひ一度ご参加ください(動画のリクエストがあれば反映させます)
「そうは言われても、うちのデータは統計学じゃ分析出来ないよ」
そういう方もいらっしゃると思います。私の経験上、そういったデータ分析が出来ない状況の一つとして量的変数として目の前の現象を扱えていないというものがあります。
私のnoteでは、過去私が製品開発を行う上で実践した分析しやすい数値の測定方法を公開しています。
私が開発活動する上で創意工夫を凝らして編み出してきたアイデアの数々を公開しています(私の知見が増えたら更新していきます)。本やネットではまず載っていません。うまい測定方法のアイデアが浮かばないという方はぜひこちらをご覧ください。
「いや、その前に使える手法を体系的に学びたいんだけど」
そんな方には、udemyの講座を推奨します。
初歩的な標準偏差から、実験計画法、多変量解析まで、実際に私が実用する上で本当に使用したことがある手法に絞って順序立てて解説しています。
どの手法が結局使えますのん?という方はぜひこちらをお求めください。
こんな感じで、様々なコンテンツを展開しています。
今後は品質工学や品質管理に重点を絞ったコンテンツなども発信していきます。
ぜひリクエストがありましたら、それらも反映させていきますのでまずはお気軽にご意見くださいな。
コメント
交互作用のところで
2×(1−7)+2×(1−7)+2×(1−7)+2×(1−7)=112
とありますが、正しくは
2×(1−7)^2+2×(7−7)^2+2×(9−7)^2+2×(11−7)^2=112
ではないでしょうか。
その通りです。ご指摘ありがとうございました。修正しました。