重回帰分析で複数の要因の関係性を解き明かそう

バラツキ

あなたは回帰という統計の手法をご存知ですか?

簡単に言うと、

$$y=ax+b$$

と説明変数xと目的変数yの関係を一次方程式として表現する手法です。

xとyの間で相関性が高い場合、この式を作り出すことで、どんなxの時にどんなyになるのかを事前に予測する事が出来ます。

時間が限られており、得られる情報も限定的にしかなり得ないビジネスの場において、過去のデータを元に値を予測できるという事は非常に強い武器となります。

詳しくはコチラ

ですが、これまで解説してきた回帰分析では、一つのxに対しての予測しか出来ません。

正直な話、一つの変数だけが求めたいyを決定しているなんて、このthe 混迷の時代にはあり得ないではないですか?

当然、複数のxがどの程度yに影響を与えているかを知りたいのが人情ってもんです。

という事で今回は複数のxがyに影響を与えている事を明らかにする、重回帰分析について解説いたします。

スポンサーリンク

重回帰分析を考えよう

重回帰って何?

ここで重回帰って何なのか、簡単に解説します。

式の形としては以下を想定します。

$$y=ax_1+bx_2+cx_3+…+z$$

つまり単純に回帰分析が何重にもなっているので、重回帰分析なんです。

ねっ?簡単でしょ?

ただ、算出するとなると結構厄介です。

数式とか良いから、簡単に使い方だけ教えてくれって方は、以下のページを参照ください。

エクセルの分析ツールを使って簡単に重回帰分析を実施する方法を記載しています。

いや、俺は数式が知りたいんだって方はそのままお進みください。

ちなみに、以下の書籍を元に解説しておりますので、本でじっくり見たいという方はコチラをどうぞ。

 

重回帰分析を体重の問題で考えてみる

この手の話でよく引き合いに出される、体重の問題で考えてみます。

yとしての体重を決定づける要素として、代表的なxと考えられるものは身長です。

ですが当然、それだけではありません。

縦に長いだけでなく、横に長い(つまりお太りになっている)というのも、体重に大きな影響を与えるはずです。

という事で、身長xと体重yの関係以外に、ここに肥満のパラメータとして胸囲zも追加できないか考えていきます。

体重yは身長xだけでなく、胸囲zによっても違いその関係が線形であると考えると次のような回帰関係式が成り立ちます。

$$y_{axz}=a+bx+cz$$

これがx及びzに対するyの回帰です。ここからa,b,cを導く方法は以前紹介した最小二乗法を用います。

$$S(a,b,c)=\sum_{i=1}^{n}{(y_i-y_{ax_iz_i})^2}$$

二次関数は極小値の傾きが0になります。

そして、二次関数を微分すると、傾きを算出する式になります。

つまり、先ほど想定した二次関数の総和の式を微分して、=0とすると、決まった式を算出出来るのです。

S(a,b,c)を極小にするためには、a,b,cについて偏微分した各式を0と置き、それら3式を満足するようなa,b,cを求めることになります。

$$\frac{∂S}{∂a}=\sum_{i}{2[y_i-(a+bx_i+z_i)](-1)}=0$$

$$\frac{∂S}{∂b}=\sum_{i}{2[y_i-(a+bx_i+z_i)](-x_i)}=0$$

$$\frac{∂S}{∂c}=\sum_{i}{2[y_i-(a+bx_i+z_i)](-z_i)}=0$$

これらの式を解くと正規方程式が得られます(以前紹介した計算法と同様ですので割愛します)。得られた正規方程式を使えばa,b,cの値が得られるようになります。

注意点

この考え方はパラメータがx,z以外にいくら増えても適用できます。

ですので、様々なパラメータを組み込んでそれぞれがどのように影響しているかを知ることが出来ます。(エクセルの分析ツールにも入っているので、算出そのものは簡単です)

ですが注意する点があります。

それは変数の寄与を見る場合には、見たい変数以外すべてが固定されている状態で見ないといけないということです。

例えば

$$体重y=a+b身長x+c胸囲z$$

を考える場合、一見すると身長が1cm伸びる毎に体重が”b”kg増える。また胸囲が1cm伸びる毎に”c”kg増えると見ることが出来ます。そして”b”<“c”だった場合、体重yへの寄与は胸囲の方が大きいと言えます。

しかしながら、このb,cを見るときは

同一の胸囲ziの場合、身長xを1cm伸ばすと体重は”b”kg増える

同一の身長xiの場合、胸囲zを1cm伸ばすと体重は”c”kg増える

と考えないといけないのです。

身長が変動している状況下では、胸囲に対してのcという係数は成り立ちません。

胸囲が変動している状況下では、身長に対してのbという係数は成り立ちません。

飽くまで一次方程式であるので、変数として扱えるのは一つ(xかz)のみなのです。

ここも扱いを間違えると、誤った判断をしてしまう可能性がありますので、十分に気をつけて下さい。

スポンサーリンク

まとめ

重回帰分析は回帰分析を延長したもので、算出の理屈も回帰分析を理解していれば、それほど難しいものではありません。

ただ、やはり数学に苦手意識があると、ちょっと難しいってのが正直なところ。

私もぶっちゃけ本を読み返してこの記事書いてます(笑)

ただ、この分析の数学的なところはそれほど理解していない久手も、エクセルを使えば簡単に出せるので、難しいって思っても、気にする事無いです。

・R2でどんだけ表せているか

・各変数を動かすときに別の変数を動かしてはダメ

ここらあたり押さえておいたら実用上困らないです。

要は仕事で成果が出ればOK、正義なんです。

臆せずドンドン使っていきましょう。

スポンサーリンク

今すぐ、あなたが統計学を勉強すべき理由

この世には、数多くのビジネススキルがあります。

その中でも、極めて汎用性の高いスキル。

それが統計学です。なぜそう言い切れるのか?

それはビジネスというのは、結局お金のやり取りであり、必ず数字が絡んできます。

そして数字を扱うスキルこそが統計学だからです。

故に一口に統計学といっても、

営業、マーケティング、研究開発、品質管理、工程管理、生産管理.etc

これら全てで使う事が出来るのです。

現に私は前職は品質管理、現職は研究開発職なのですが、面接のときに

「品質管理時に活用した、統計の知識を研究開発にも活かせます」

とアピールして職種をうまく切り替える事が出来ました。

そして、もし始めるなら今から勉強を始めましょう。

なんなら、今すぐこのページを閉じて本格的に勉強を開始するべきです。

なぜなら、このような『スキル』は20代でもっともキャリアアップに繋がるからです。

30代ならいざ知らず、40代になると求められるのはこれまでの業務を遂行してきた経験や人脈なのです。

これが無いとある一定以上のキャリアアップは望めませんし、40代以降のハイクラスの転職先も望めません。

20代のうちは成果を結び付けるためにこのスキルが大いに役立ちますが、年を経るごとに求められる働き方が変わるのでスキルの実績への寄与が減ってしまうのです。

なので、後からやればいいやと後回しにすると機を逸してしまう可能性が高いです。

ちなみにこれから統計学を学習をするというのであれば、ラーニングピラミッドというものを意識すると効率的です。

私自身、インプットだけでなく、youtubeや職場でアウトプットしながら活用する事で統計リテラシーを日々向上させていっています。

ぜひ、アナタも当ブログやyoutubeチャンネルで統計リテラシーを上げて、どこでも通用するビジネスパーソンになりましょう

 

コメント