標準化して重回帰分析してみよう

エクセル

 

以前エクセルでの重回帰分析を紹介しました。

エクセルの分析ツールを使うことで、データを揃えただけで重回帰分析を行うことが出来たのですが、実はただ単に与えられたデータを重回帰分析するだけでは、分からないことがあります。

それは

『変量の影響力』

です。

今回は変量の影響力の比較方法を紹介します。

スポンサーリンク

変量の影響力ってなに?

「そもそも変量の影響力っていきなり出てきたけど何なのさ?」

と思われる方が大勢いらっしゃると思いますので、まずそこから解説します。

重回帰分析の一般式を見てみましょう

$$z=ax+by+・・・+c$$

このように、目的変数zをx、y・・・と複数の変量で説明する式なのですが、このxやyはzに対して同等の影響力を持っている訳ではありません。

当然偏りがあります。

その影響の度合いを表現しているのが、aやbと言った偏回帰係数なのですが、実はこのままaとbの値を比べれば影響力が分かるわけではありません。

なぜならば、説明変数によってスケールが異なるからです。

例えば説明変数をそれぞれ身長xと体重yとした場合、基本的には身長は3桁で体重は2桁です。

そして目的変数(体格を表す指数とか)が例えば2桁であった場合、身長に対する偏回帰係数は0.1単位の数字であり、体重に対する偏回帰係数は1単位の数字になるはずです。

式にするとこんなイメージです。

$$□□=0.1×□□□+1×□□$$

そうでないと桁の帳尻が合わないのです。

故に生データのままでは、変量の寄与がどの程度か分からないのです。

スポンサーリンク

データを標準化して変量の影響力を見える化しよう!

各変量がそれぞれどの程度寄与しているかは、選択と集中が重要とされるビジネスにおいて非常に重要な事柄です。

何か影響力を比較する方法はないものでしょうか?

そんな不安を感じた方

安心してください!

あります!

 

その方法とは

データの標準化です。

$$x’=\frac{x-\overline{x}}{s}$$

標準正規分布のときに紹介しましたが、このように標準化処理を施すと同じスケールの値に変形することが出来ます。

実際に見てみましょう。

以下の表を重回帰分析すると

 

重回帰式は

$$婚姻率=0.000968×人口+0.030226×旅券発行+4.231009$$

となります。(詳細はこちらの記事を参照ください)

今回はこれらの値を標準化します。

例えば北海道の人口554の場合、

人口の平均値:271.66

人口の標準偏差:263.77

なので、

$$\frac{554-271.66}{263.77}=1.07$$

となります。このような具合ですべての値に標準化処理を施すと

このようになります。

あとは同じようにエクセルの分析ツールで回帰分析を行うと

このような結果になります。

以前の結果では旅券発行yの偏回帰係数の方が2桁ほど大きかったのですが、実は人口も旅券発行も同程度の影響力ということがここで分かりました。

このように、標準化することで変量の影響力を簡単に見える化することが出来ます。

標準化もエクセルの関数で簡単に導けます。

 

売上、利益などにどの要素がより大きな影響を与えているかを調べるときに、ぜひ標準化と重回帰分析を使ってみてください。

当サイトを閲覧下さる皆さまは、日々より良い仕事が出来るようになりたいと思われているビジネスパーソンがメインだと思います。 でも「時間が無い」、「セミナー行くの面倒くさい」といった理由で中々学べていない方も多いと思います。 このビジネス動画学習サービスでは、いつでも、どこでもスマホ一つでビジネススキルを隙間時間で学ぶことが出来ます。 youtube紹介はこちら
YouTube
今なら10日間ムリョウトライアル実施中 ぜひ活用してみて下さい。 グロービスのビジネススキル動画が見放題

コメント