集団の”ばらつき”を比較するときは、標準偏差よりも変動係数を使うべきです。
ということで、私もこの変動係数を頻繁に使用するのですが、ふとこんな事が気になりました。
「どのくらい差があったら、有意差があるって言えんねん?」
標準偏差や平均値の有意差検定は、初級者向けの統計本に必ず記載されていますが、実は変動係数の検定というのは載っていないのです。
本どころか、ネットでも見つけられません。
しかしながら、なぜ”ばらつき”という情報が必要か考えてみて下さい。
大半が「あの集団より”ばらつき”が大きいのか(小さいのか)を知りたい」と答えるはずです。
そう考えると、比較するための指標として頻繁に使用する変動係数の有意差検定の方が、標準偏差や分散の検定より重要なはずです。
今回はこの不満を払しょくするために、変動係数の有意差、そしてぱっと見で判断できる目安について考えてみます。
そもそも変動係数ってなんだ?
変動係数とは、標準偏差を平均値で割った値のことです。
$$CV=\frac{σ}{μ}$$
この処理のポイントは
・平均値が1の場合の標準偏差である
・比較する集団の平均値の有意差を無くす
というところです。
言うなれば、変動係数の検定というのは
・平均値『1』同士の標準偏差(=√分散)の有意差検定
ということです。
故に等分散の検定である、F検定が活用出来るはずです。
F検定で考えてみよう
F検定については、過去の記事を参照してほしいのですが、基本的には
・分散比(F0値)を算出する
$$F_0=\frac{V_1}{V_2}$$
・ある有意水準(通常5%)における、2つの集団の自由度に該当するF値を確認する
・F0値とF値を比較し、F0値が大きい場合有意差があるものとする。
の段階を踏むことで実施されます。
さて、変動係数の場合は平均値を1とした場合の標準偏差なのですから、変動係数を2乗すれば、平均値1の場合の分散Vとなります。
よって比較した2つの集団の変動係数を2乗し、あとは通常通りF検定を実施すれば有意差検定を実施することが出来ます。
よく使いそうなN数における有意差の目安は?
今回の記事を書くきっかけとなったのは、
「どのくらい差があったら、有意差があるって言えんねん?」
です。F検定で有意差を判断出来そうなことが分かりましたが、どちらかというと、単純に比較した場合にどの程度の差なら、有意差がありそうか。
その目安を私は知りたいのです。
もちろん精度を求めるなら、都度F検定を実施した方が良いのですが、何より仕事にスピードが求められる昨今、様々な目安を把握しておき、判断の速度を上げるというのも、精度と同様大切なことです(孫子的には拙速>>巧遅)。
ということで、よく使いそうな各サンプルサイズにおける、有意水準5%のF値を確認してみました。
今回はサンプルサイズ10,30,100を見ていきます。
また前提条件として、比較する2つの集団のサンプルサイズは同じとします。
今回はエクセルのFINV関数で算出しています。
=FINV(確率、分子の自由度、分母の自由度)
この時、自由度=サンプルサイズ-1への変換を忘れないようにしてください。
N=10の場合は、自由度=10-1=9です。
結果は以下になります。
N=10の場合 F=3.18
N=30の場合 F=1.86
N=100の場合 F=1.39
さて、ここで手を止めてはいけません。このF値は分散の比です。変動係数は標準偏差と同じ次元の値ですので、ここから更にF値の平方根を計算する必要があります。
結果として、
N=10の場合√F=1.78
N=30の場合 √F=1.36
N=100の場合 √F=1.18
となりました、ちなみにサンプルサイズ5~100でグラフ化すると以下になります。
サンプルサイズ20から1.5倍を切ってきています。
また先ほどの計算結果から、一般的なサンプルサイズ30の場合は、1.4倍程度です。
またサンプルサイズ100という大きなものとなる場合、1.2倍程度です。
そしてこのグラフは形状から、おそらくここからどれだけサンプルサイズを増やしたとしても1.2倍から殆ど小さくなりそうにありません。
よって、目安として使う場合、
・30前後程度のサンプルサイズは1.5倍以上なら有意差有り。
・100を超える極めて大きなサンプルサイズの場合は1.2倍以上なら有意差有り
と決めて使うとそれほど破綻しないように思います。
本当は1.5倍ではなく、1.3~1.4倍にしたいところですが、集団同士でサンプルサイズが異なる場合、√Fは変動しますし出来れば目安は切りのいい数字を扱いたい所なので、1.5倍としました。
なので今後は変動係数で比較するときは、
1.5倍以上差が開いているか否か
という判断基準で確認しようと思っています。
まとめ
変動係数の有意差といっても、いうたら平均値1の時の標準偏差に他なりません。
標準偏差なら2乗すれば分散の差の検定、F検定を使えるはずです。
そして計算した結果としては、1.5倍程度が妥当っぽいです。
このような目安を準備しておくと、判断のスピードが上がりますし、判断ミスの確率も減ると思います。
ぜひ活用してみてください。
今すぐ、あなたが統計学を勉強すべき理由
この世には、数多くのビジネススキルがあります。
その中でも、極めて汎用性の高いスキル。
それが統計学です。なぜそう言い切れるのか?
それはビジネスというのは、結局お金のやり取りであり、必ず数字が絡んできます。
そして数字を扱うスキルこそが統計学だからです。
故に一口に統計学といっても、
営業、マーケティング、研究開発、品質管理、工程管理、生産管理.etc
これら全てで使う事が出来るのです。
現に私は前職は品質管理、現職は研究開発職なのですが、面接のときに
「品質管理時に活用した、統計の知識を研究開発にも活かせます」
とアピールして職種をうまく切り替える事が出来ました。
そして、もし始めるなら今から勉強を始めましょう。
なんなら、今すぐこのページを閉じて本格的に勉強を開始するべきです。
なぜなら、このような『スキル』は20代でもっともキャリアアップに繋がるからです。
30代ならいざ知らず、40代になると求められるのはこれまでの業務を遂行してきた経験や人脈なのです。
これが無いとある一定以上のキャリアアップは望めませんし、40代以降のハイクラスの転職先も望めません。
20代のうちは成果を結び付けるためにこのスキルが大いに役立ちますが、年を経るごとに求められる働き方が変わるのでスキルの実績への寄与が減ってしまうのです。
なので、後からやればいいやと後回しにすると機を逸してしまう可能性が高いです。
ちなみにこれから統計学を学習をするというのであれば、ラーニングピラミッドというものを意識すると効率的です。
私自身、インプットだけでなく、youtubeや職場でアウトプットしながら活用する事で統計リテラシーを日々向上させていっています。
ぜひ、アナタも当ブログやyoutubeチャンネルで統計リテラシーを上げて、どこでも通用するビジネスパーソンになりましょう
コメント