直交表と重回帰分析を組み合わせてシミュレーションしよう

多変量解析

統計、特に回帰分析の類の醍醐味と言えば、

未来予知が出来る

コレでしょう!

既存のデータの説明変数xと目的変数yの傾向から、未知のxに対する未知のyが予測出来たら仕事の戦略の幅は大きく広がります。

ですが、昨今のビジネス環境において、単一のxで完全に説明されるyというのもあり得ないわけで、単回帰だとちと弱い。

よって、出来れば重回帰分析を使いたいものです。

ですが、この重回帰分析は複数の説明変数に対する目的変数のデータが必要なので、そのデータ収集が結構難しいのです。

そういう綺麗なデータを集める上で、実は直交表というのはすごく強力なんです。

今回は、直交表と重回帰分析の併用について解説していきます。

 

スポンサーリンク

重回帰分析と直交表

重回帰分析って何だっけ?

まず、重回帰分析について簡単に解説します。

単回帰が、一つのxに対しての一つのyの平均値の関係性を式にしたものに対して、

重回帰は複数のxに対して一つのyの平均値の関係性を式にしたものになります。

$$y=ax_1+bx_2+cx_3・・・+z$$

データが揃えば、エクセルの分析ツールで簡単に各係数が算出されます。

かったるいところは、データを揃えるところです。

例えば、説明変数を7個で3水準振って重回帰式を作ろうとすると、実験の回数は

$$3^7=2187$$

と、2187通りの実験をしなくてはいけなくなります。

また、この組み合わせをクソ真面目に実施しないと決めた場合でも、ならどのような組み合わせを抜粋すれば、偏りのない実験計画にが構築できるのかが分からないので、破綻してしまい可能性があります。

故に、重回帰分析はその実験データをいかに揃えるかが結構難易度が高いのです。

直交表って何だっけ?

直交表とは、実験計画法で良く出てくる、実験の組み合わせ表です。

直交表通りに実験を組み合わせれば、最小の労力で、すべての組み合わせを試行したのと同等の結果を得る事が出来ます。

例えば、先ほどの図の要因1に注目していください。

実験1,2の結果には、要因1は水準0のみ存在しますが、要因2,3には水準0,1が同数存在します。

そして実験3,4の時でも要因1のみ存在し、要因2,3には水準0,1が同数存在します。

つまり、実験1,2を平均したものと実験3,4を平均したデータは、要因2,3の全ての条件を網羅した上で、要因1の水準の差を比較出来るのです。

この直交表は、様々なサイズのものが存在します。

L18直交表を使えば、先ほどの因子7、水準3という組み合わせも

2187通り⇒18通り

と、大幅に縮小することが可能となります。

この直交表で取った実験データで、重回帰分析を実施すれば、効率的に実験を進める事が可能となります。

要因効果図も併用しよう

重回帰分析を直交表で実施する場合には、注意点があります。

それは、説明変数が量的変数でなければいけないという事です。

量的変数とは、数字の間隔に意味がある数字の事です。

テストの点数とか、温度とかですね。

よく製造業でありがちな、傷の程度を5段階評価とかはダメです。

評価1と2の間に意味が無いからです。

「こんな事言われんでも分かるわい」と言われそうですが、直交表と分散分析による分析の場合は、その限りではないため、直交表を使い慣れている方はおそらくこの間違いをしてしまう可能性があると思うのです。

ただ、全てが全て、量的変数でなければダメという訳でもないです。

どういうことかと言いますと、

例えば以下のような直交表を組んだとします。

この実験内容で、植物の生育具合を見てみるとします。

この場合、2つ目の因子は質的変数になっています。

この実験内容で重回帰分析をしたい場合は、どうしたら良いのでしょうか?

その為には、まず要因効果図を確認しましょう。

分散分析を使用する事で、量的、質的関係なく、どの水準が有効かを判定出来ます。

ここで、肥料の種類はBを選べばOKな事が分かります。

なので、肥料の種類をBに固定した上で、他の量的変数を含んだ重回帰分析をすればよいのです。

今回の場合、実験2,4で重回帰式を作ればOKなんです。

こうする事で、質的変数も考慮に入れた上での重回帰分析を実行する事が可能となります。

この辺り、結構盲点でこの事が原因で重回帰分析の使用に踏み出せなかった人も多いと思います。

めちゃ便利なので、ぜひ活用してみて下さい。

スポンサーリンク

今すぐ、あなたが統計学を勉強すべき理由

この世には、数多くのビジネススキルがあります。

その中でも、極めて汎用性の高いスキル。

それが統計学です。なぜそう言い切れるのか?

それはビジネスというのは、結局お金のやり取りであり、必ず数字が絡んできます。

そして数字を扱うスキルこそが統計学だからです。

故に一口に統計学といっても、

営業、マーケティング、研究開発、品質管理、工程管理、生産管理.etc

これら全てで使う事が出来るのです。

現に私は前職は品質管理、現職は研究開発職なのですが、面接のときに

「品質管理時に活用した、統計の知識を研究開発にも活かせます」

とアピールして職種をうまく切り替える事が出来ました。

そして、もし始めるなら今から勉強を始めましょう。

なんなら、今すぐこのページを閉じて本格的に勉強を開始するべきです。

なぜなら、このような『スキル』は20代でもっともキャリアアップに繋がるからです。

30代ならいざ知らず、40代になると求められるのはこれまでの業務を遂行してきた経験や人脈なのです。

これが無いとある一定以上のキャリアアップは望めませんし、40代以降のハイクラスの転職先も望めません。

20代のうちは成果を結び付けるためにこのスキルが大いに役立ちますが、年を経るごとに求められる働き方が変わるのでスキルの実績への寄与が減ってしまうのです。

なので、後からやればいいやと後回しにすると機を逸してしまう可能性が高いです。

ちなみにこれから統計学を学習をするというのであれば、ラーニングピラミッドというものを意識すると効率的です。

私自身、インプットだけでなく、youtubeや職場でアウトプットしながら活用する事で統計リテラシーを日々向上させていっています。

ぜひ、アナタも当ブログやyoutubeチャンネルで統計リテラシーを上げて、どこでも通用するビジネスパーソンになりましょう

コメント