値を予測しよう 回帰関係2

相関

前回は回帰関係について解説しました。

今回は回帰関係を表す一次式

$$y_A=a+bx$$

ただしyAはyの平均値

の回帰パラメータa及びbを導出する式を紹介します。

今回は特に数式の記述が多くなりますが、段階を踏んでいけば理解できるものですので、どうかゲンナリせず読んで頂ければと思います。

最小二乗法

まず前提として以下の性質を把握しておく必要があります。

・算術平均からの偏差の平方和は他のいかなる一定値からの偏差の平方和より小さい。

平均値のこの性質は、不偏標準偏差がNではなく、N-1を扱う理由にもなる統計学において重要な性質ですが今回は解説は割愛します

偏差平方和の式は以下になります

$$S(y_A)=\sum_{i=1}^{n}{(y_i-y_A)^2}$$

冒頭の式を偏差平方和の式に代入すると

$$S(a,b)=\sum_{i=1}^{n}{(y_i-(a+bx_i))^2}$$

となりますので、Sを最小にするパラメータa及びbを求めれば良いということになります。

このような方法を最小二乗法といいます。(道具として理解するうえで我々サラリーマンはこの単語を記憶しておく必要はありません)

この考え方ですが、文字だと分かりづらいですね。

ですので少し図で解説します。

前回も解説したように、回帰関係ではxとyが直接関連する関係ではないので、一次式的な回帰関係をこのように図示しようとすると、このようにそれぞれの値の集まりの中心を通るような直線を引こうとするはずです。

中心を通るというのはすなわち、直線と値の差eが最小になるような書き方を言います。

最小二乗法はeの二乗和を最小とするような直線の位置を定めるものなのです。

正規方程式

偏差平方和

$$S(a,b)=\sum_{i=1}^{n}{(y_i-(a+bx_i))^2}$$

がa及びbにおいて最小(極小)にするには、この式を微分(a,bそれぞれで微分するため正しくは偏微分)したものが0と等しくならなければなりません。

この微分のくだりですが、二次関数以上の関数の場合極大値と極小値があります。この極大もしくは極小値はその関数のてっぺんもしくは谷の底です。つまり傾きが0なのです。

関数を微分すると微分した関数の傾きを求める式が得られます。微分した式が0と等しくなる点は元の関数の極大点か極小点になります。

何はともあれ、とりあえず極小になるaとbを求めるための式変形と考えてください。

さてこれを偏微分すると

$$\frac{∂S(a,b)}{∂a}=\sum_{i}{2[y_i-(a+bx_i))]}(-1)=0$$

$$\frac{∂S(a,b)}{∂b}=\sum_{i}{2[y_i-(a+bx_i))]}(-x_i)=0$$

となります。ここから更に整理しますと以下のようになります。

$$①       \sum_{i}{[y_i-(a+bx_i)]}=\sum_{i}{e_i}=0$$

$$①’      na+b\sum_{i}{x_i}=\sum_{i}{y_i}$$

$$②       \sum_{i}{[y_i-(a+bx_i)]}x_i=\sum_{i}{e_i}x_i=0$$

$$②’      \sum_{i}{x_i}+b\sum_{i}{x_i^2}=\sum_{i}{x_iy_i}$$

となります。この①’及び②’の二つの式はa,b以外のパラメータはデータから計算されるものなので、結局a,bについての連立一次方程式になっており、これを解くとa,bが求まります。

正規方程式の意味するもの

ここで、正規方程式が何を示しているのかを見ていきましょう。

①及び②は導出の過程で導いたものですが、a及びbが満たすべき条件を示したものです。

まず①が意味するものですが、これは

・回帰直線からの偏差eの合計が0

であることを示しています。回帰直線の上側に外れているプラスのeと下側に外れているマイナスのeが互いに打ち消しあう位置づけに、回帰直線を引くという条件を表しているのです。

また①’をnで割ると以下の式になります。

$$y_A=a+bx_A$$

ただしxAはxの平均です。

これはxがxAであるときはyAであること、すなわち回帰直線は(xA,yA)を必ず通ることも条件に組み込まれています。

次に②が意味するものですが、

・xiと回帰からの偏差eiとそれに対応するxiの積の合計は0

というものです。この条件が加わることで、(xA,yA)を中心とした無数の回帰直線候補を一つに絞ることが出来ます。

まとめ

おさらいとして回帰直線の満たすべき条件とは

・回帰直線からの偏差eの合計が0

・回帰直線は(xA,yA)を通る

・xiと回帰からの偏差eiとそれに対応するxiの積の合計は0

この条件を満たす回帰直線は一つだけになります。

最終的な式だけを見るとなぜそうなったのか分からないものですが、このように導出の過程を見ていくとなぜそのようになるのか分かるようになります。

式の意味が分かると、分析した結果がどのように計算されたのか、どの値が起因してそのような結果になるのかが分かるようになり、考察の精度が増します。

統計は便利なツールですが、それに振り回されることなく使いこなしましょう。

相関
スポンサーリンク
シグマアイ-仕事で使える統計を-

コメント