決定係数について 【相関係数と同じようで違うのです】

バラツキ

前回は回帰における正規方程式の意味するところを解説しました。

今回は回帰において重要な決定係数に関して解説します。

エクセルで散布図を作図すると、近似曲線を引くことが出来る機能があるのですがその適応度合いをみるためにR2を表示する機能はご存知でしょうか。

このR2のことを決定係数と呼びます。

「R2って相関係数と同じでしょ?」

と思われる方もいらっしゃると思いますが、実は目的が異なります。

今回は決定係数の成り立ちから、相関係数とどのような違いがあるのかを紹介していきます。

スポンサーリンク

決定係数を導こう!

各成分における分散

体重yと身長xの例で説明していきます。身長が高い人ほど体重が重いと考えられるので、ここには回帰関係があると考えます。

そんな中で分散を考えると、まず身長xを考慮せずにあるn人の集団の体重yの分散を考える場合、その式は

$$s_y^2=\frac{1}{n}\sum_{i=1}^{n}{(y_i-\overline{y})^2}$$

ただしはyの平均値です。

この数値は、この集団のすべての分散(=総分散)と言えます。

しかしその集団の中で、身長xに依存している体重yが存在する場合、

・身長に依存する体重

・身長に依存しない体重

がそれぞれ存在しているはずです。

ここで身長に依存しない体重を考えてみます。

この身長に依存しない体重の分散は、以下の式で表されます。

$$s_{y・x}^2=\frac{1}{n}\sum_{i=1}^{n}{(y_i-\overline{y_{xi}})^2}$$

ただしはxiに対応する平均体重です。

そして分散の加法性から、総分散から身長によって決定されない分散を引くと、必然的に身長によって決定される分散が導かれます。

$$s_r^2=s_y^2-s_{y・x}^2$$

以下のイメージを見て頂くと、分かりやすいかもしれません。

決定係数の算出

ここで身長xに依存する分散sr2と全部の分散sy2の比率を示すことが出来れば、分散のうちに身長xがどれだけ寄与しているかを知ることが出来ます。

つまり

$$r^2=\frac{s_r^2}{s_y^2}=1-\frac{s_{y・x}^2}{s_y^2}$$

で示されるr2は、全部の分散yのうちxによって決定される分散の割合を示す数値と言えます。

このr2決定係数と言います。

決定係数は0≦r2≦1の間を動きます。

0の場合はxがyの値をまったく決定しないことを示します。

1の場合はxがyの値をすべて決定することを示します。

つまり0に近いとxと無関係になり、1に近いとxに決定される度合いが増えます。

決定係数は、その名の通りxによって、yが決定されるか否かを示した指標になります。

さて、この一定の範囲でxとyの依存度を示す数字として、別の代表的な指標が存在します。

そう、それは相関係数です。

この二つの指標は、非常に強い関連を持つ値同士でありながら、微妙に示している事象が異なるという間柄になります。

スポンサーリンク

決定係数と相関係数の関係

相関係数は-1≦r≦1ですが、0と1の関係は同じです。

実は相関係数を2乗すると決定係数になります。逆に決定係数の平方根を取ると相関係数になります。

この場合相関係数の符号ですが、回帰式

$$y_a=a+bx$$

のbの符号と一致します。

2乗か否かだけの違いに見えますが、式のアプローチの仕方が異なります。

相関係数は4事象のうちの数値の集まり具合に注目しています。

決定係数は回帰式の変数xによる分散の比率に注目しています。

ここで注意が必要で、

相関性を見る場合には相関係数を使う

回帰式の当てはまり具合を見る場合は決定係数を使う

必要があります。

簡単に相関係数0.5という数値で考えてみます。

相関係数0.5というと中々相関性が取れていると言える数値と言えます(検定で見解が変わる可能性はありますが)。

しかしながら決定係数で考えると0.5を2乗するので0.25となります。かなり小さい数値です。

つまりこの場合は

「相関性はありそうだけど、回帰式での数値の予測は難しそう」

となります。

ここで相関係数と決定係数を混同して考えてしまうと

「相関係数で0.5で相関性は強そうだから回帰式で数値の予測も出来そうだ!」

と誤った結論を出してしまう可能性が出てしまうのです。

また、相関係数は-1~1の数字ですので、2乗する決定係数との関係は常に

相関係数 ≧ 決定係数

となります。

これは単に相関性を示すよりも、yを導ける式(回帰式)の適合は厳しいという実態を良く表している関係性であると言えます。

スポンサーリンク

まとめ

今回は決定係数の導出を解説しました。

エクセルでは簡単に出せる近似曲線の式や確からしさが、今までの解説でかなり見えてきたと思います。

ですが決定係数も相関係数と同じく「この数値以上ならOK」と言えそうな明確な目安は準備されていません。

特に回帰式を用いる場合はxから具体的な数値yを算出するわけで、これはかなり大胆というかリスキーなことだと私は思います。

具体的に与えられた数値は、スペックや規格の決定に直結する場合が多いのです。

スペックや規格に一度適応されると、その影響力はあなたの手から離れて全社に及びます。

また簡単に「無かったこと」にも出来ないのです。

故に統計的手法で予測することも大切ですが、その後の裏取りはそれにも増して大切なのです。

例えばある実験結果においてxとyからある回帰式が得られた場合、もう一度別のxにおいて実験を実施しその結果yが最初の回帰式の予測と合致するかの確認は必須だと思います。

決定係数は大きな目安となり得ますが、あまりそれに振り回されないようにしてください。

統計的予測とアクションが組み合わさって初めて大きな武器となるのです。

コメント