決定係数について 【相関係数と同じようで違うのです】

バラツキ

前回は回帰における正規方程式の意味するところを解説しました。

今回は回帰において重要な決定係数に関して解説します。

エクセルで散布図を作図すると、近似曲線を引くことが出来る機能があるのですがその適応度合いをみるためにR2を表示する機能はご存知でしょうか。

このR2のことを決定係数と呼びます。

「R2って相関係数と同じでしょ?」

と思われる方もいらっしゃると思いますが、実は目的が異なります。

今回は決定係数の成り立ちから、相関係数とどのような違いがあるのかを紹介していきます。

こちらの本を元に解説しています。

 

動画でも解説しています。

スポンサーリンク

決定係数を導こう!

各成分における分散

体重yと身長xの例で説明していきます。身長が高い人ほど体重が重いと考えられるので、ここには回帰関係があると考えます。

そんな中で分散を考えると、まず身長xを考慮せずにあるn人の集団の体重yの分散を考える場合、その式は

$$s_y^2=\frac{1}{n}\sum_{i=1}^{n}{(y_i-\overline{y})^2}$$

ただしはyの平均値です。

この数値は、この集団のすべての分散(=総分散)と言えます。

しかしその集団の中で、身長xに依存している体重yが存在する場合、

・身長に依存する体重

・身長に依存しない体重

がそれぞれ存在しているはずです。

ここで身長に依存しない体重を考えてみます。

この身長に依存しない体重の分散は、以下の式で表されます。

$$s_{y・x}^2=\frac{1}{n}\sum_{i=1}^{n}{(y_i-\overline{y_{xi}})^2}$$

ただしはxiに対応する平均体重です。

そして分散の加法性から、総分散から身長によって決定されない分散を引くと、必然的に身長によって決定される分散が導かれます。

$$s_r^2=s_y^2-s_{y・x}^2$$

以下のイメージを見て頂くと、分かりやすいかもしれません。

決定係数の算出

ここで身長xに依存する分散sr2と全部の分散sy2の比率を示すことが出来れば、分散のうちに身長xがどれだけ寄与しているかを知ることが出来ます。

つまり

$$r^2=\frac{s_r^2}{s_y^2}=1-\frac{s_{y・x}^2}{s_y^2}$$

で示されるr2は、全部の分散yのうちxによって決定される分散の割合を示す数値と言えます。

このr2決定係数と言います。

決定係数は0≦r2≦1の間を動きます。

0の場合はxがyの値をまったく決定しないことを示します。

1の場合はxがyの値をすべて決定することを示します。

つまり0に近いとxと無関係になり、1に近いとxに決定される度合いが増えます。

決定係数は、その名の通りxによって、yが決定されるか否かを示した指標になります。

さて、この一定の範囲でxとyの依存度を示す数字として、別の代表的な指標が存在します。

そう、それは相関係数です。

この二つの指標は、非常に強い関連を持つ値同士でありながら、微妙に示している事象が異なるという間柄になります。

スポンサーリンク

決定係数と相関係数の関係

相関係数は-1≦r≦1ですが、0と1の関係は同じです。

実は相関係数を2乗すると決定係数になります。逆に決定係数の平方根を取ると相関係数になります。

この場合相関係数の符号ですが、回帰式

$$y_a=a+bx$$

のbの符号と一致します。

2乗か否かだけの違いに見えますが、式のアプローチの仕方が異なります。

相関係数は4事象のうちの数値の集まり具合に注目しています。

決定係数は回帰式の変数xによる分散の比率に注目しています。

ここで注意が必要で、

相関性を見る場合には相関係数を使う

回帰式の当てはまり具合を見る場合は決定係数を使う

必要があります。

簡単に相関係数0.5という数値で考えてみます。

相関係数0.5というと中々相関性が取れていると言える数値と言えます(検定で見解が変わる可能性はありますが)。

しかしながら決定係数で考えると0.5を2乗するので0.25となります。かなり小さい数値です。

つまりこの場合は

「相関性はありそうだけど、回帰式での数値の予測は難しそう」

となります。

ここで相関係数と決定係数を混同して考えてしまうと

「相関係数で0.5で相関性は強そうだから回帰式で数値の予測も出来そうだ!」

と誤った結論を出してしまう可能性が出てしまうのです。

また、相関係数は-1~1の数字ですので、2乗する決定係数との関係は常に

|相関係数| ≧ 決定係数

となります。

これは単に相関性を示すよりも、yを導ける式(回帰式)の適合は厳しいという実態を良く表している関係性であると言えます。

スポンサーリンク

まとめ

今回は決定係数の導出を解説しました。

相関係数が目的変数と説明変数の依存ぶりを示す値なのに対して、決定係数は回帰式の信用度を示します。

この辺りの区別がつかず、yとxの依存度を決定係数で計ってしまう人ってかなり多いと思います。

エクセルの近似曲線で簡単に表示されやすいですから。

故にこの辺りを明確に区別できるようになると、統計リテラシーが一つ上のレベルに上がります。

ぜひ決定係数と相関係数を使い分けて、正しい分析を実施しましょう。

スポンサーリンク

今すぐ、あなたが統計学を勉強すべき理由

この世には、数多くのビジネススキルがあります。

その中でも、極めて汎用性の高いスキル。

それが統計学です。なぜそう言い切れるのか?

それはビジネスというのは、結局お金のやり取りであり、必ず数字が絡んできます。

そして数字を扱うスキルこそが統計学だからです。

故に一口に統計学といっても、

営業、マーケティング、研究開発、品質管理、工程管理、生産管理.etc

これら全てで使う事が出来るのです。

現に私は前職は品質管理、現職は研究開発職なのですが、面接のときに

「品質管理時に活用した、統計の知識を研究開発にも活かせます」

とアピールして職種をうまく切り替える事が出来ました。

そして、もし始めるなら今から勉強を始めましょう。

なんなら、今すぐこのページを閉じて本格的に勉強を開始するべきです。

なぜなら、このような『スキル』は20代でもっともキャリアアップに繋がるからです。

30代ならいざ知らず、40代になると求められるのはこれまでの業務を遂行してきた経験や人脈なのです。

これが無いとある一定以上のキャリアアップは望めませんし、40代以降のハイクラスの転職先も望めません。

20代のうちは成果を結び付けるためにこのスキルが大いに役立ちますが、年を経るごとに求められる働き方が変わるのでスキルの実績への寄与が減ってしまうのです。

なので、後からやればいいやと後回しにすると機を逸してしまう可能性が高いです。

ちなみにこれから統計学を学習をするというのであれば、ラーニングピラミッドというものを意識すると効率的です。

私自身、インプットだけでなく、youtubeや職場でアウトプットしながら活用する事で統計リテラシーを日々向上させていっています。

ぜひ、アナタも当ブログやyoutubeチャンネルで統計リテラシーを上げて、どこでも通用するビジネスパーソンになりましょう

 

スポンサーリンク
バラツキ 相関
スポンサーリンク
シグマアイ-仕事で使える統計を-

コメント

  1. 数学太郎 より:

    すみません。

    ==========================================================================
    また、相関係数は-1~1の数字ですので、2乗する決定係数との関係は常に

    相関係数 ≧ 決定係数

    となります。
    ==========================================================================
    とありますが、こちら、正確には

    ==========================================================================
    また、相関係数は-1~1の数字ですので、2乗する決定係数との関係は常に

    |相関係数| ≧ 決定係数

    となります。
    ==========================================================================
    ではないでしょうか?

    例えば、相関係数が -0.9 だった場合、決定係数は 0.81 になるので、
    相関係数 ≧ 決定係数
    の式が、成立しないと思うのです。

    • Yuki より:

      確かにおっしゃる通りです。

      近日修正します。

      あと、初めてのコメントだったので、何気にうれしかったです。

      ありがとうございます。

  2. nkdc より:

    熊野コミチさんこんにちは
    いつも動画見ています。
    製造業で品質管理に関する仕事をしているので参考にさせていただいています。

    一点質問させて下さい。

    業務中にExcelでR~2値がいくつだったら相関があると言えるのか?
    という話になり、いろいろと調べてもこれといったものがなく困っています。
    (社内で標準化すべきものなのかとも思っています。)

    動画とブログから相関があるかは決定係数(xの値からyの値を推測した時の信頼度?)ではなく相関係数で議論すべきものなのかとは理解しました。

    ただ、相関係数がいくつならどの程度相関があるのかという点については理解が及んでいません。

    例えば
    ランダムなサンプルで散布図を作った時に
    サンプル数=nで
    相関係数がA以上となるのは
    何%かというのは求めることはできますでしょうか。

    これが分かれば
    サンプル数2000で相関係数=0.7
    これが偶然に発生するのは5%以下なので相関があると言える

    というような話ができるのですが。

    • Yuki より:

      遅れてスイマセン。
      一応こんな記事書いてますので、参考にして頂ければ。
      https://sigma-eye.com/2020/03/16/r-sample-size/

      ただ、上記記事でも触れてますが、信頼区間を出すにしてもNが多すぎるので、あんまし基準になり得ないかなと個人的には思ってます。

      感覚的にですが、
      グラフの形で明らかに直線を描いている
      +
      相関性なら0.5以上あれば関係あり。
      数字の予測を回帰分析で行いたいならR2>0.9は必要

      こんな感じで、私は見ています。

      ちなみに、標準化として相関係数を設定するのは、避けた方が良いと思います。
      この手の数字を標準化すると、数字が基準を満たしていれば良いとして、グラフ化しておかしくても盲目的に製品が通ってしまいクレームの元になりかねないからです。

      相関係数にしても、その他の手法にしても、グラフや統計量など複数の指標で総合的に判断しないと大変な事になります。