相関係数は値と値の関係性の強さを示す指標です。
エクセルの関数でも簡単に算出出来る上、イメージ的にも分かりやすいために極めて便利な数値です。
しかしながら、扱うときにはいくつかの注意点があります。
これを考慮しなければ、間違った判断のもとになりますので気をつけましょう。
相関係数の注意点
層別が出来てないと相関係数が変化する
こちらのグラフをご覧ください。
この関係を学年関係なく、一つの集団としてみた場合背の高さに伴って数学力が高いという相関性が見えます。
しかしながら、学年で層別すると決して相関があるとは言い難い関係になっているのが見て取れます。
このように複数の集団が混在する(層別出来ていない)と相関があるように見えたり、逆に相関が無くなったように見えたりすることがあります。
故に相関性を確認する場合は、データの層別をしっかりやっておく必要があります。
相関関係は因果関係ではない
以前の記事でも紹介しましたが、相関係数が成り立っていても、その間に因果関係が成り立っているとは限りません。
先程の背の高さと数学力のグラフを見ると、層別されていない場合背の高さと数学力に相関があるように見えます。
しかしながら、実際には背の高さと数学力には因果関係がありません。
この場合は『学年』が背の高さと数学力の間の橋渡しをしており、
・学年と背の高さ
・学年と数学力
の因果関係が成り立っているために、背の高さと数学力の間に相関性があるように見えているのです。
故に相関性が成り立っているように見受けられた場合は、鵜呑みにせずどのような因果関係が隠れているかを考察する必要があります。
1次式にしか適用できない
このデータは
$$y=3x^2+2x+2$$
の関数です。明らかに二次関数の関係となっており一見すると相関性=1と出てもおかしくありません。
しかしながらこのグラフの相関係数は0.19と極めて小さいため、相関係数だけで見ると『相関性なし』と誤った判断に繋がってしまいます。
というのも、相関係数は直線関係にしか適用が出来ないという特徴があります。
そのため、グラフを書かずに相関係数だけ算出して判断した場合、実際には二次、三次式的な関係性があるのにも関わらず、「相関なし」という判断をしてしまう可能性があります。
故に相関性を見る場合には、まずグラフを書き、直線関係に近いと思われる場合、相関係数を算出して相関の強さを測るという手順を取らなければなりません。
まとめ
相関性は便利ですが、万能ではありません。
数々の落とし穴があります。
相関性を確認する際には、
・グラフを書いて直線関係かを確認する
・相関性がある場合、どのような因果関係が存在するか考察する。
・因果関係から、今のグラフが正しく層別されているかを考察する
・因果関係の考察に即したグラフを書き直し、再度相関性を確認する。
このような手順を辿れば、誤った判断をする可能性を減らすことが出来るはずです。
コメント