分散分析は、注目している要因が効果をもたらしているかを検証する分析方法です。
今回は、最も単純な一元配置分散分析の計算の流れと、エクセルでの分散分析法を紹介します。
何をやっているのかを把握していれば、実際の計算はエクセルに任せてしまえば良いと思っていますので、暗記しようとせずに「ふ~ん、大体わかった」ってなったらOKだと思います。
統計学がうまく使えなかった人はコチラ⇒統計学を活かす 解析しやすい数値化のノウハウ
一元配置分散分析の計算方法
一元配置を始めとした分散分析の手法はこちらの書籍に詳しく書いてあります。
多分この記事より面白いです(笑)。ぜひご一読ください
動画でもアップしています。
ぜひご覧ください。
分散分析の計算の流れ
基本的には、以前紹介したように群間変動と群内変動を算出し、比較します。
数式だけで考えていくとややこしいので、例題とともに考えていきましょう。
自動車メーカーA,B,C,Dの同一エンジンの車の1L当たりの走行距離を考えた場合、メーカーごとに燃費の差が有るかどうかを考えてみます。
この表における同一メーカー内の”ばらつき”と比較してメーカー毎の平均値の”ばらつき”が大きければ、効果があると言えます。
分散分析における群内変動と群間変動は以下の式で表されます。
$$総変動=群内変動+群間変動$$
$$V=\sum_{i=1}^{m}\sum_{j=1}^{n_i}(x_{ij}-\overline{\overline{x}})^2=\sum_{i=1}^{m}\sum_{j=1}^{n_i}(x_{ij}-\overline{x_i})^2+\sum_{i=1}^{m}n_i(\overline{x_i}-\overline{\overline{x}})^2=V_1+V_2$$
V1が群内変動で、V2が群間変動です。
まず、群内変動に注目すると、
$$V_1=(12.3-12.8)^2+(12.9-12.9)^2+(13.0-12.9)^2+・・・+(14.6-13.4)^2=12.0$$
になります。
一方群間変動は
$$V_2=4×(12.9-12.8)^2+7×(13.0-12.8)^2+4×(11.8-12.8)^2+5×(13.4-12.8)^2=6.09$$
となります。この群間変動が、なぜ同じ偏差平方にn数掛ける理由が分かりづらいと思います。
こちらに関しては以下の表を見て頂くと分かりやすいです。
このように、群内変動が0であるという仮定で、すべてサンプルがその群の平均になった場合で計算しているため、各偏差平方をサンプルサイズの個数足し合わせているのです。
さて、ここでF検定に入りたいのですが、まだ実施することは出来ません。
ここで算出したV1とV2は偏差平方和であって、分散ではないためこれらを自由度で割って分散に変換する必要があります。
自由度は
群間変動は群の数-1なので、4-1=3になります。
群内変動ですが、これは表全体の自由度n-1から先ほどの群間変動の自由度m-1を引いたn-mになります。つまり20-4=16になります。
よって、各分散値は
$$群内分散s_1^2=\frac{V_1}{n-m}=\frac{12.0}{16}=0.75$$
$$群間分散s_2^2=\frac{V_2}{m-1}=\frac{6.09}{3}=2.03$$
になります。
F検定で効果の確認
そしてF検定を実施して、群間分散が群内分散より有意差が出るほど大きいかどうかを確認します。
F検定の詳細は以下の記事を参照ください。
自由度3と16のF値は
$$F_{16}^3(0.05)=3.24$$
そして今回のF=群間分散/群内分散は
$$F_0=\frac{s_2^2}{s_1^2}=\frac{2.03}{0.75}=2.71$$
そしてF値同士を比較すると、
$$F_{16}^3(0.05)=3.24>F_0=2.71$$
となり、有意差がないためメーカー毎に燃費の差が有るとは言えない、という結論になります。
つまり、メーカー別で低燃費の車を見つけようとしても、ムダということです。
エクセルで分析してみよう
偏差平方和の計算は実際に行うと、かなり面倒なので実用ではエクセルのデータ分析ツールを使いましょう。
データは先述の自動車メーカー別の燃費(kg/L)を使います。
まずデータタグの分析ツールを選び、その中の分散分析:一元配置を選択します。
次に、分析対象のデータを選択。データ方向は要因の並び方向の事で今回メーカーは横(列方向)に並んでいるので列を選びます。
有意水準はα=0.05で、先頭行をラベルとして使用にチェックを入れると、要因名(今回はA,B,C,D)が表示されます。
これで結果が出力されます。
着目する点はP-値です。この値が有意水準α(=0.05)を下回っていたら有意差ありと判断します。
今回の結果は、P-値が0.05より大きい(<0.08)なので有意差なしです。
まとめ
今回は一元配置分散分析を紹介しました。
今回の結果から分かる通り、分散分析では要因による効果の有無を知ることが出来ます。
要因の有効性が分かるという事は、有効ではない要因に割く時間を削減することが出来るという事です。
研究開発を実施する際に、条件振りをすると思いますが、その条件が効果に寄与しないものであった場合、時間をムダに浪費することになりかねません。
きっちり分散分析を実施し、効率よく実験を行いましょう。
コンテンツ紹介
昨今機械学習やディープラーニングなど、データを扱うための知識の重要度は日々増していっています。
そんな最先端のスキルを使いこなすには、土台となる統計学の知識が必要不可欠です。
しかしながら、統計学は本で読んでも何とか理論は理解できてもそこからどのように実務に活かしたら良いのか分からない。そんな机上と現実のギャップが凄まじい学問です。
そんな机上と現実のギャップを埋めるために、私は当サイトをはじめ様々なコンテンツを展開しています。
youtubeでは登録者1万人の統計学のチャンネルを運用しています。
動画投稿だけでなく、週2回のコメントに来た質問への回答配信も行っているので気になる方はどしどし質問をお寄せください。
youtubeでは無料動画だけでなく、有料のメンバーシップ限定動画も運用しています。
メンバーシップ登録リンク(押しただけで登録はされないので、気軽にクリックしてください)
エクセルやJAMOVIといった無料で使える統計ツールの実際の使い方。そして無料動画では敷居の高い(というよりマニアックゆえに再生数が見込めない(笑))解説動画をアップしています。
本を読んで実際に分析してみようと思ったけど、どうもうまくいかなかった。本では見かけない、あるいは難しすぎて扱えない手法があったという方。ぜひ一度ご参加ください(動画のリクエストがあれば反映させます)
「そうは言われても、うちのデータは統計学じゃ分析出来ないよ」
そういう方もいらっしゃると思います。私の経験上、そういったデータ分析が出来ない状況の一つとして量的変数として目の前の現象を扱えていないというものがあります。
私のnoteでは、過去私が製品開発を行う上で実践した分析しやすい数値の測定方法を公開しています。
私が開発活動する上で創意工夫を凝らして編み出してきたアイデアの数々を公開しています(私の知見が増えたら更新していきます)。本やネットではまず載っていません。うまい測定方法のアイデアが浮かばないという方はぜひこちらをご覧ください。
「いや、その前に使える手法を体系的に学びたいんだけど」
そんな方には、udemyの講座を推奨します。
初歩的な標準偏差から、実験計画法、多変量解析まで、実際に私が実用する上で本当に使用したことがある手法に絞って順序立てて解説しています。
どの手法が結局使えますのん?という方はぜひこちらをお求めください。
こんな感じで、様々なコンテンツを展開しています。
今後は品質工学や品質管理に重点を絞ったコンテンツなども発信していきます。
ぜひリクエストがありましたら、それらも反映させていきますのでまずはお気軽にご意見くださいな。
コメント