2変量の関係性を探るうえで、相関係数というものは、非常に便利で強力なので頻繁に使用されます。
簡単ですしね。
ですが、その相関係数、信頼性区間とかサンプルサイズとかってご存知ですか?
そうなんです、このあたり結構なぞなんです。
ミステリアスな奴なんですよね、相関係数って。
という事で、今回は相関係数の信頼性区間とサンプルサイズについて、こちらの論文を見つけたので、
抜粋しながら、解説していこうと思います。
最初にネタ晴らしですが、正直信頼性区間を担保するのに必要サンプルサイズが多すぎました。
今目の前にある、サンプルの相関係数を目安として扱うぐらいに留めた方が吉ですね。
と、読む前からやる気を削いでしまいましたが、それでもとりあえず興味あるという方は、読み進めて下さいまし。
相関係数の信頼性区間
相関係数って何?
本題に入る前に、相関係数の復習をしましょう。
まずxとyの2つの変量の間に、右肩上がりや右肩下がりのような直線的な関係が存在する場合、その2つの値は相関関係にあると言います。
そして、その直線的な関係性の強さを、定量的に知りたい場合に用いられる指標が、相関係数になります。
こんな式で表されます。
$$r=\frac{\frac{1}{N}\sum(x-\overline{x})(y-\overline{y})}{\sqrt{\frac{1}{N}\sum(x-\overline{x})^2}\sqrt{\frac{1}{N}\sum(y-\overline{y})^2}}$$
意味合いとしては、以下の動画を見て頂けると分かりやすいと思いますので、ぜひ。
また、相関係数全般も以下の記事で解説をしています。
次に相関係数の信頼性区間について、解説していきます。
相関係数の信頼性区間
相関係数の信頼性区間は、そのままrの範囲で示されるのではなく、FisherのZ変換というものを行います。
$$Z=\frac{1}{2}Log_e\frac{1+r}{1-r}$$
そして、このZ値は以下の信頼性区間を取ります。
$$Z_U=Z+\frac{Z_{1-α/2}}{\sqrt{n-3}}$$
$$Z_L=Z-\frac{Z_{1-α/2}}{\sqrt{n-3}}$$
Z1-α/2は標準正規分布の上側α/2の値です。
α=5%の場合、1-α/2=97.5%なので、Z1-α/2=1.96になります。
例えば、R=0.5、n=1000、α=5%で考えてみましょう。
Z値は
$$Z=\frac{1}{2}Log_e\frac{1+0.5}{1-0.5}=0.55$$
$$Z_U=Z+\frac{1.96}{\sqrt{1000-3}}=0.55+0.06=0.61$$
$$Z_L=Z-\frac{1.96}{\sqrt{1000-3}}=0.55-0.06=0.49$$
となります。
ただこれだと、rがどの程度振れているのかピンと来ないので、Zをrに変換する式を解いてみました。
コチラになります。
$$r=\frac{exp(2Z)-1}{exp(2Z)+1}$$
これに先ほど算出したZUとZLを入力しますと、
$$r_U=\frac{exp(2×0.61)-1}{exp(2×0.61)+1}=0.54$$
$$r_L=\frac{exp(2×0.49)-1}{exp(2×0.49)+1}=0.45$$
となりました。
n=1000で、95%の信頼性区間は、おおよそ0.05くらい振れるという訳ですね。
信頼性区間とサンプルサイズの関係
ここで、先ほど紹介した方法で、各サンプルサイズにおける信頼性区間の幅をグラフ化してみましょう。
コチラになります。
こうしてみると、n=100あたりで±0.2で収束が始まっていますね。
ただ、個人的には精度に対して、必要なサンプルサイズが多すぎる気がします。
n=100というデータ数は相当な数です。
苦労して、それだけ集めても、0.2も振れるというのは、あまりにも報われない感じがしませんか?
r=0.5という結果であった場合、母集団の相関係数が
0.3≦r≦0.7
になるという事ですよ?
なので、n<100になるようなデータを扱っている場合は、信頼性区間が0を跨ぐかどうかに注目するという使い方が良さそうです。
0を跨がず、正負どちらかに信頼性区間が偏っているならば、少なくとも相関性はあると言い切ることは出来るでしょう。
なので使い方としては、
散布図を書いて、
グラフ形状から相関性を見出し、
目安として相関係数をチェック
信頼性区間で相関性の有無をチェック
このくらいに留めておいた方が良さそうです。
ただ、アナタが、n=100とか10000とか集まるような対象を扱っている場合は、相関係数の真値を知るのに、大いに役に立つと思います。
そのときには、どんどんこの相関係数の信頼性の式を、活用してみて下さい。
まとめ
相関係数の95%信頼性区間を、真値の把握として機能させようとすると、どうしてもn=100以上が必要になってきます。
なので、n<100となるような対象を扱っている場合は、信頼性区間がr=0を跨ぐかどうかを確認する事で、相関性の有無を補足的にチェックする程度に留めておきましょう。
今回の手法はどうしても、大標本での使用が前提となっていました。
今後、新たに小標本向けの手法が見つかったら、別の機会に紹介したいと思います。
もし、こんな本や論文あるよって知っている方、いらっしゃったら、教えて下さると感謝感激雨嵐なので、よろしくお願いします。
今すぐ、あなたが統計学を勉強すべき理由
この世には、数多くのビジネススキルがあります。
その中でも、極めて汎用性の高いスキル。
それが統計学です。なぜそう言い切れるのか?
それはビジネスというのは、結局お金のやり取りであり、必ず数字が絡んできます。
そして数字を扱うスキルこそが統計学だからです。
故に一口に統計学といっても、
営業、マーケティング、研究開発、品質管理、工程管理、生産管理.etc
これら全てで使う事が出来るのです。
現に私は前職は品質管理、現職は研究開発職なのですが、面接のときに
「品質管理時に活用した、統計の知識を研究開発にも活かせます」
とアピールして職種をうまく切り替える事が出来ました。
そして、もし始めるなら今から勉強を始めましょう。
なんなら、今すぐこのページを閉じて本格的に勉強を開始するべきです。
なぜなら、このような『スキル』は20代でもっともキャリアアップに繋がるからです。
30代ならいざ知らず、40代になると求められるのはこれまでの業務を遂行してきた経験や人脈なのです。
これが無いとある一定以上のキャリアアップは望めませんし、40代以降のハイクラスの転職先も望めません。
20代のうちは成果を結び付けるためにこのスキルが大いに役立ちますが、年を経るごとに求められる働き方が変わるのでスキルの実績への寄与が減ってしまうのです。
なので、後からやればいいやと後回しにすると機を逸してしまう可能性が高いです。
ちなみにこれから統計学を学習をするというのであれば、ラーニングピラミッドというものを意識すると効率的です。
私自身、インプットだけでなく、youtubeや職場でアウトプットしながら活用する事で統計リテラシーを日々向上させていっています。
ぜひ、アナタも当ブログやyoutubeチャンネルで統計リテラシーを上げて、どこでも通用するビジネスパーソンになりましょう
コメント