集団の”ばらつき”を比較するときは、標準偏差よりも変動係数を使うべきです。
ということで、私もこの変動係数を頻繁に使用するのですが、ふとこんな事が気になりました。
「どのくらい差があったら、有意差があるって言えんねん?」
標準偏差や平均値の有意差検定は、初級者向けの統計本に必ず記載されていますが、実は変動係数の検定というのは載っていないのです。
本どころか、ネットでも見つけられません。
しかしながら、なぜ”ばらつき”という情報が必要か考えてみて下さい。
大半が「あの集団より”ばらつき”が大きいのか(小さいのか)を知りたい」と答えるはずです。
そう考えると、比較するための指標として頻繁に使用する変動係数の有意差検定の方が、標準偏差や分散の検定より重要なはずです。
今回はこの不満を払しょくするために、変動係数の有意差、そしてぱっと見で判断できる目安について考えてみます。
統計学がうまく使えなかった人はコチラ⇒統計学を活かす 解析しやすい数値化のノウハウ
そもそも変動係数ってなんだ?
変動係数とは、標準偏差を平均値で割った値のことです。
$$CV=\frac{σ}{μ}$$
この処理のポイントは
・平均値が1の場合の標準偏差である
・比較する集団の平均値の有意差を無くす
というところです。
言うなれば、変動係数の検定というのは
・平均値『1』同士の標準偏差(=√分散)の有意差検定
ということです。
故に等分散の検定である、F検定が活用出来るはずです。
F検定で考えてみよう
F検定については、過去の記事を参照してほしいのですが、基本的には
・分散比(F0値)を算出する
$$F_0=\frac{V_1}{V_2}$$
・ある有意水準(通常5%)における、2つの集団の自由度に該当するF値を確認する
・F0値とF値を比較し、F0値が大きい場合有意差があるものとする。
の段階を踏むことで実施されます。
さて、変動係数の場合は平均値を1とした場合の標準偏差なのですから、変動係数を2乗すれば、平均値1の場合の分散Vとなります。
よって比較した2つの集団の変動係数を2乗し、あとは通常通りF検定を実施すれば有意差検定を実施することが出来ます。
よく使いそうなN数における有意差の目安は?
今回の記事を書くきっかけとなったのは、
「どのくらい差があったら、有意差があるって言えんねん?」
です。F検定で有意差を判断出来そうなことが分かりましたが、どちらかというと、単純に比較した場合にどの程度の差なら、有意差がありそうか。
その目安を私は知りたいのです。
もちろん精度を求めるなら、都度F検定を実施した方が良いのですが、何より仕事にスピードが求められる昨今、様々な目安を把握しておき、判断の速度を上げるというのも、精度と同様大切なことです(孫子的には拙速>>巧遅)。
ということで、よく使いそうな各サンプルサイズにおける、有意水準5%のF値を確認してみました。
今回はサンプルサイズ10,30,100を見ていきます。
また前提条件として、比較する2つの集団のサンプルサイズは同じとします。
今回はエクセルのFINV関数で算出しています。
=FINV(確率、分子の自由度、分母の自由度)
この時、自由度=サンプルサイズ-1への変換を忘れないようにしてください。
N=10の場合は、自由度=10-1=9です。
結果は以下になります。
N=10の場合 F=3.18
N=30の場合 F=1.86
N=100の場合 F=1.39
さて、ここで手を止めてはいけません。このF値は分散の比です。変動係数は標準偏差と同じ次元の値ですので、ここから更にF値の平方根を計算する必要があります。
結果として、
N=10の場合√F=1.78
N=30の場合 √F=1.36
N=100の場合 √F=1.18
となりました、ちなみにサンプルサイズ5~100でグラフ化すると以下になります。
サンプルサイズ20から1.5倍を切ってきています。
また先ほどの計算結果から、一般的なサンプルサイズ30の場合は、1.4倍程度です。
またサンプルサイズ100という大きなものとなる場合、1.2倍程度です。
そしてこのグラフは形状から、おそらくここからどれだけサンプルサイズを増やしたとしても1.2倍から殆ど小さくなりそうにありません。
よって、目安として使う場合、
・30前後程度のサンプルサイズは1.5倍以上なら有意差有り。
・100を超える極めて大きなサンプルサイズの場合は1.2倍以上なら有意差有り
と決めて使うとそれほど破綻しないように思います。
本当は1.5倍ではなく、1.3~1.4倍にしたいところですが、集団同士でサンプルサイズが異なる場合、√Fは変動しますし出来れば目安は切りのいい数字を扱いたい所なので、1.5倍としました。
なので今後は変動係数で比較するときは、
1.5倍以上差が開いているか否か
という判断基準で確認しようと思っています。
まとめ
変動係数の有意差といっても、いうたら平均値1の時の標準偏差に他なりません。
標準偏差なら2乗すれば分散の差の検定、F検定を使えるはずです。
そして計算した結果としては、1.5倍程度が妥当っぽいです。
このような目安を準備しておくと、判断のスピードが上がりますし、判断ミスの確率も減ると思います。
ぜひ活用してみてください。
コンテンツ紹介
昨今機械学習やディープラーニングなど、データを扱うための知識の重要度は日々増していっています。
そんな最先端のスキルを使いこなすには、土台となる統計学の知識が必要不可欠です。
しかしながら、統計学は本で読んでも何とか理論は理解できてもそこからどのように実務に活かしたら良いのか分からない。そんな机上と現実のギャップが凄まじい学問です。
そんな机上と現実のギャップを埋めるために、私は当サイトをはじめ様々なコンテンツを展開しています。
youtubeでは登録者1万人の統計学のチャンネルを運用しています。
動画投稿だけでなく、週2回のコメントに来た質問への回答配信も行っているので気になる方はどしどし質問をお寄せください。
youtubeでは無料動画だけでなく、有料のメンバーシップ限定動画も運用しています。
メンバーシップ登録リンク(押しただけで登録はされないので、気軽にクリックしてください)
エクセルやJAMOVIといった無料で使える統計ツールの実際の使い方。そして無料動画では敷居の高い(というよりマニアックゆえに再生数が見込めない(笑))解説動画をアップしています。
本を読んで実際に分析してみようと思ったけど、どうもうまくいかなかった。本では見かけない、あるいは難しすぎて扱えない手法があったという方。ぜひ一度ご参加ください(動画のリクエストがあれば反映させます)
「そうは言われても、うちのデータは統計学じゃ分析出来ないよ」
そういう方もいらっしゃると思います。私の経験上、そういったデータ分析が出来ない状況の一つとして量的変数として目の前の現象を扱えていないというものがあります。
私のnoteでは、過去私が製品開発を行う上で実践した分析しやすい数値の測定方法を公開しています。
私が開発活動する上で創意工夫を凝らして編み出してきたアイデアの数々を公開しています(私の知見が増えたら更新していきます)。本やネットではまず載っていません。うまい測定方法のアイデアが浮かばないという方はぜひこちらをご覧ください。
「いや、その前に使える手法を体系的に学びたいんだけど」
そんな方には、udemyの講座を推奨します。
初歩的な標準偏差から、実験計画法、多変量解析まで、実際に私が実用する上で本当に使用したことがある手法に絞って順序立てて解説しています。
どの手法が結局使えますのん?という方はぜひこちらをお求めください。
こんな感じで、様々なコンテンツを展開しています。
今後は品質工学や品質管理に重点を絞ったコンテンツなども発信していきます。
ぜひリクエストがありましたら、それらも反映させていきますのでまずはお気軽にご意見くださいな。
コメント