統計の手法で有名なものに、分散分析というものがあります。
よくある説明では、
「3群以上の平均値の検定をする際に実施する」
と言われますが、あまり本質を突いた説明とは言えません。
今回は、この分散分析がどのような分析法なのかを解説したいと思います。
一元配置を始めとした分散分析の手法はこちらの書籍に詳しく書いてあります。
多分この記事より面白いです(笑)。ぜひご一読ください
youtubeでも解説しています。
統計学がうまく使えなかった人はコチラ⇒統計学を活かす 解析しやすい数値化のノウハウ
分散分析とは?
そもそも分散分析は、何を捉えるための分析法なのか。
これが分かっていないと、何をやっているのか分からなくなります。
分散を使って平均値を分析する
分散分析は、名称だけだと分散を分析する手法と思われがちですが、実は違います。
分散分析は
分散を利用して平均値を分析する
手法なのです。
「何言っているのか分からない」という方も多いと思います。
まず、以下の図を見てください。
薬の投与量に対して、効能が上がるかどうかを評価したいとします。
このグラフを見ると、同じ投与量でも効能はある程度のばらつきを持っていますが、投与量が増えると効能は比例的に増しているように見えます。
ただ、これだけ同じ投与量でばらついている所を見ると、本当に投与量が効果に依存しているのか少し疑わしいです。
この場合分散分析を使うと、薬の投与量は効能に効果を与えているのかを知ることが出来ます。
考え方はこうです。
この投与量と効能の間には、2種類の”ばらつき”が存在します。
群内変動:測定誤差による”ばらつき”
群間変動:投与量を振ったことによる平均値の”ばらつき”
薬の投与量の効果が大きければ、当然各投与量における平均値の差は大きくなります。
この平均値の差を分散で表現すると、効果が大きくなれば分散(群間変動)が増加します。
よって、誤差による分散(群内変動)より、効果による分散(群間変動)が大きければ誤差以上の効果があると判断出来ます。
手法としては、群間変動と群内変動の比をF検定で有意差を確認することで、投与量の効果の有無を判断できます。
差が有る事しか分からない
この分散分析を実施することで、薬の投与量による効能への効果を知ることが出来ます。
しかし、薬10gと20gの間に差が有るのか、薬10gと30gで実は初めて効果出るのか。
そういった、どこに効果が出ているのかを知ることは出来ません。
分かることは、投与量は効能に効果があるという1点のみです。
なので、分散分析で分析が完結することは稀です。
投与量をどれだけ増やせば効果が出るのか、そういった群同士の比較の方がデータとしては興味深いからです。
故に分散分析を実施した後は、多重比較で群間の関係性を確認することがセオリーと言われています。
ただし、この説も実はちょっと間違っています。
ちゃんとした文献では、多重比較分析によっては事前に分散分析による評価は不要であると言われています。
検定の多重性のためです(F検定⇒多重比較)。
効果のある要因を特定しよう
多重比較でも必要ないとしたら、分散分析はしなくても良いような気がします。
分散分析はいらない子なのでしょうか。
私はそう思いません。
そもそも、求めているスペックに対してどの要因が効果があるのかは非常に重要な情報です。
効果があると思い込んで、数値を振って単なる誤差を有意差として検証していたなら、時間の無駄以外の何物でもありません。
また、分散分析は同時に複数の要因について評価することも出来れば、要因同士の交互作用も知ることも出来ます。
以上のことから、分散分析は多重比較の前座ではなく、
『効果的な要因を探す』
ための手法であると捉えた方が良いです。
分散分析の種類
分散分析には複数の種類があります。
詳細はまた別記事で一つずつ取り上げるつもりです。
1元配置分散分析
最もシンプルな分散分析です。
先述したような一つの要因を対象とした分散分析です。
1元配置分散分析は先ほど示したように、誤差と要因による効果がグラフ等でも分かりやすいです。
個人的には要因が一つだけなら、分散分析するまでもないと考えています。
しかしながら、単純であるがゆえに分散分析とはどのような手法であるかを理解しやすいため、勉強の為に実施してみることは無駄ではありません。
2元配置分散分析
要因が2つある場合の分散分析です。
要因が二つになってくると、誤差と2つの要因が混ざり合っているので一見しただけではかなり分かりづらくなっています。
この辺りになると、分散分析を導入する意味があります。
また、2元配置分散分析では交互作用も分析することが出来ます。
交互作用とは特定の組み合わせで、突発的に効果が上がる(もしくは下がる)作用の事です。
例えば先ほど投与量(10,20,30g)に新たに薬の形態(錠剤、粉、カプセル)という要因が加わったとします。
この場合、投与量が増えるほど、形態は水に溶けやすくなるほど(カプセル⇒錠剤⇒粉)、通常は効果が上がる中で、特定の組み合わせ(20g×カプセル)は突発的に効果が上がっています。
これが交互作用です。
このように2元配置分散分析は得られる情報量が多いので、GR&Rや更に要因が増えた多元配置分散分析は実験計画法にも適用されています。
まとめ
今回は分散分析の概念を紹介しました。
分散分析を用いることで、スペックに効果のある要因を特定することが出来、実験を効果的に実施することが出来ます。
効果の有無は普段中々有意差を含めて判断されることは少ないので、これが出来る人材は稀です。
ぜひ実用して、人と差をつけましょう!!
統計学をうまく使うために・・・
「先ほど紹介された手法を使って業務改善を行うぞ!」
と今から試そうとされているアナタ。
うまくいけば問題ありませんが、そうでない場合はコチラ
統計学の知識を持っていてもうまくいかない場合というのは、そもそも相対する問題がうまく数値化、評価が出来ない場合というのが非常に多いのです。
私もこれまでそのような場面に何度もぶち当たり、うまく解析/改善が出来なかったことがありました。
このnoteはそんな私がどのように実務で数値化をし、分析可能にしてきたかのノウハウを公開したものです。
どんな統計学の本にも載っていない、生々しい情報満載です。
また、私の知見が蓄積されたら都度更新もしていきます!!
買い切りタイプなのでお得です。
ぜひお求めくださいな。
youtubeのメンバーシップはじめました
仕事で使える統計学をyoutubeで解説しています。
さらに、メンバーシップ限定で
・エクセル、R commanderの実践動画
・私が仕事で使った統計学の応用
・さらに難易度の高めの統計の解説
を発信しています。
教科書等の本を読むよりも、動画による学習のほうが効率が良いとされています(ラーニングピラミッド)。
統計学を勉強しているけれど、自分の仕事への活かし方が分からない。
本だけでは、どうしてもニュアンスが分からない。
そんな方にもってこいの情報を発信しております。
youtubeのチャンネルと別でメンバーシップを作った理由ですが、それは
youtubeのチャンネルでは、本当に専門的な内容は閲覧されないからです。
「少し専門的でニッチだけど、ほかのどこにも無い動画を出したぞ!」
と、気合を入れたものほど、あんまり見られないです(MSAの動画とかヒドいもんです)。
割とマジ悲しい・・・
かといって、再生目的で狙っていって、簡単な動画だけを出しても、私のやりたいこと
「見ている人の統計リテラシーを底上げして、お仕事の役に立ちたい」
は、実現できないと思うんです。
ゆえに!
youtubeを見てもらって、私の解説に興味を持ってもらい、お金を払ってでも本気で勉強したい方に、より深い内容をお届けする。
という運営方針をとることにしました。
金額も月額2000円越えと、決して安くはありません。
ですが、その金額に見合った活動を行っていきます。
期待外れだった、飽きた、もう教わることは何もないとなったら、いつでも解約してもらってOKです。
将来的には、個別ケースに対してのアドバイス配信もやっていきたいと考えています。
統計を活かして、よりハイレベルな仕事をしていきたい、アナタへ。
一緒に勉強していきましょう!!
コメント