主成分分析とは何か②

多変量解析

前回でエクセルの機能(ソルバー)を利用すれば、主成分を導くことが出来ました。

しかしながら、この導いた主成分が全然データの情報(分散)を取り入れていないのであれば意味がありません。

誤った解釈をしてしまう可能性があります。

故に導き出した主成分がどれだけデータの個性を取り入れているのかを、調査する必要があります。

また、前回出した主成分だけで説明が出来ない、十分ではないという状況も考えられます。

今回はそのような事態を避けるための、主成分の寄与率と第二主成分の導き方について解説します。

主成分の寄与率

主成分分析のみならず、多変量解析において最も重要な量は分散です。

分散とはデータの情報を表したものだからです。

以上を考慮した場合、主成分がデータを取り入れている量「寄与率」は

「全データの分散に対して、主成分の分散はどれだけか」

という発想に行きつきます。つまり前回使用した以下の表の場合寄与率C

$$C=\frac{s_p^2}{s_x^2+s_y^2+s_u^2+s_v^2+s_w^2}$$

になります。

この場合、分母は各変量ごとに分散を導いてそれを総和してください。

実際に計算すると以下のようになります。

$$C_1=\frac{845.5}{231.2+34.4+44.3+591.5+22.2}=0.91$$

この場合主成分pは全データの分散の91%を表現していると言えます。

かなり当てになるので、この主成分で生徒の総合学力を判定することは正しいようです。

第二主成分

これで主成分の寄与率が分かりました。この主成分はデータの91%の分散を説明しているので、もう十分って感じですが、まだもうちょっとお付き合いお願いします。

実はまだ9%の分散の説明が出来ていません。

別に良いかなって感じではありますが、もし最初の主成分が70%や60%程度しか説明出来なかったらどうしますか?

残りの30%や40%の情報を知りたいと思うのが人情だと思うのです。

故に残りの情報を表す第二主成分の導き方を説明します(対して最初に導いた主成分は第一主成分と言います)。

まずは、各生徒、各教科(変量)のデータの「残りかす」を算出します。

残りかすとは言葉が悪いですが、これは第一主成分では説明がつかない数値を抽出するということです。

例えば数学xの場合式で表すと

$$x’=x-ap$$

になります。出席番号1の数学xの場合

$$71-0.49×149.9=-2.7$$

となります。主成分149.9点のうち49%が数学xの得点寄与分ですので、それを引いてあげるのです。

そんな感じで各生徒、各教科で計算した表がこちらになります。

この表に対して、第一主成分の時と同様にソルバーで負荷量a,b,c,d,eを導くと

となります。こうして導かれたqが第二主成分になります。

この値は数学の時に大きなプラス(0.76)、国語の時に大きなマイナス(-0.53)の負荷量を示しているので、理系、文系能力の好悪とでもいえるものを表しているようです。

この値qを通常のx,y・・・で導くには

$$q=0.76x’+0.24y’+0.20u’-0.53v’-0.24w’$$

$$x’=x-0.49p$$

といった先ほどの””残りかす””の算出式を代入すると

$$q=0.76(x-0.49p)+0.24(y-0.17p)+0.20(u-0.20p)-0.53(v-0.83p)-0.24(w-0.07p)$$

$$q=0.76x+0.24y+0.20u-0.53v-0.24w$$

このようにpがうまく消えてくれます。ですので実使用の場合はソルバーで算出したa’、b’をそのまま使って大丈夫です。

さてこの第二主成分の寄与率ですが、

$$C_2=\frac{43.9}{231.2+34.4+44.3+591.5+22.2}=0.05$$

となります。残り9%のうち5%が第二主成分で説明できることが分かりました。

これを繰り返すと第三、第四主成分も導くことが出来るようになります。

 

コメント