前回名義尺度同士の相関を示す指標としてクラメールの関連指数を紹介しました。
今回は間隔尺度と名義尺度の相関について解説します。
相関比の導出
ゴルフのスコアを例に考えます。大村、中村、小村は名義尺度です。対してスコアは間隔尺度です。
ここで相関を考えるということを整理します。
相関を考えるということは、「データのばらつきが何に依存しているか」を考えるということです。
一般的な相関係数は、目的変数yのばらつきが説明変数xにどれだけ依存しているかを示しています。
今回の場合ゴルフスコアのばらつきが、プレイヤーにどれだけ依存しているのかを考えます。
まず、すべてのスコアから全平均を引き偏差を算出します。
そして、各偏差を2乗します。偏差のままでは総計が0になってしまうためです。
この「総計=714」がゴルフスコアの全分散となります。
次に3人の実力差によるばらつきを算出します。
まず3人の実力を6回のプレーの平均値と仮定します。その場合以下のようになります。
この各スコアから全平均91を引き、偏差を算出し2乗します。
ここで算出された「総計=252」は各人の実力による分散になります。
最後に各人の実力による分散をゴルフスコアの分散で割ります。
$$η^2=\frac{実力による分散}{ゴルフスコアの全分散}=\frac{252}{714}≒0.35$$
算出された「η2」は相関比と呼ばれます。
一般的な相関係数のように扱い場合は相関比の平方根を取り「η」とします。よって
$$η=\sqrt{0.35}=0.59$$
となります。多少実力による差があると言えそうな結果となりました。
最後に相関比の数式をご紹介します。
$$\eta^2=\frac{n\sum{(\overline{x}-\overline{\overline{x}})^2}}{\sum{(x-\overline{\overline{x}})^2}}$$
これで間隔尺度と名義尺度の相関が導出出来ました。
今回紹介したように、基本的に相関を求めるという事は「ばらつきの比」を求めるということを覚えておいてください。
コメント