皆さんデータを分析するときって代表値を算出すると思うんですけど、その時ってどんな代表値を算出します?
多分100%平均値は算出すると思うんですよね。
だって、平均値ってその集団を端的に表してくれそうじゃないですか。学校でもそう習ったし。
でもこの平均値がデータを代表する、つまり多数か否かって本当なんですかね?
今回はそんな信頼されている平均値が本当に多数派なのかを考えてみましょう。
動画も出してます。
平均値の性質を確認しよう
平均値って何?
まず平均値とは何なのかを考えてみましょう。
平均値はデータ群を合計して、足した数で割ったものです。
こうすることで全てのデータの中心に来る値を得る事が出来ます。
式で書くとこう
$$μ=\frac{1}{n}\sum_{i=1}^{n}{x_i}$$
単純でイメージしやすい上、ほぼ全員が共通に認識している指標だけあって多用されるんですね。確かに平均値は群の中心に来るので群全体を代表していると言っても過言ではないでしょう。
しかしながら、代表=多数派というとそれは如何なもんでしょうか。
平均値の便利な特性
平均値が頻繁に使われるのは先述の理由からだけではありません。それは正規分布を決定づける指標の一つでもあるからです。
正規分布の形状は平均値μと標準偏差σ(厳密には分散σ2)で決定されます。平均値と標準偏差が分かれば個々のデータを標準化して標準正規分布表からデータの発生確率を割り出すことが出来ます。
正規分布の基本的な性質は、平均値μと標準偏差σのたった2つの値で決まる!
更に母集団から何回もデータを採取すると、そのたびに採取されたデータ群のそれぞれの平均値も異なりますが、その採取された平均値は正規分布に従います。中心極限定理といいます。
大数の法則と中心極限定理とは【正規分布かどうか考えなくてもOK】
【管理図、t検定】正規分布でなくても使える、統計の手法を解説します【中心極限定理の活用】
このあたりの性質も分析に非常に便利なので多用されるわけです。
さて、もう一度正規分布に目をやりましょう。
横軸が確率変数、縦軸が確率密度です。
真ん中のμのところ、確率密度が最大になっています。
ってことは発生頻度がとても高そうです。故に平均値がデータ群の多数派といっても何ら差し支えなさそうです。
でもね、これちょっとした罠なんです。
平均値は多数派か?
確率密度と確率の関係
確率密度関数の縦軸は確率密度ですが、これはイコール確率ではありません。
例えば平均値の確率密度は正規分布において最大ですが、ピンポイント平均値の確率はと言えば・・・
実は0%なんです。
えっ?なして?最大なんじゃないの?
ハイ、落ち着いてください。解説しますんで。
確率密度関数の確率は確率変数の範囲内の面積で表されます。
例えば-σ~σの間の確率変数の発生確率は66%といった具合です。
そして確率変数ピンポイントの場合、横軸の幅が0なので面積も0。ゆえに確率も0なんです。
納得いかないと思いますので、ここで一つたとえ話。
とあるペンを作っていたとします。直径の規格は1±0.1mmです。
直径のセンター値1mmって厳密にどんだけ作れそうでしょうか。
確かに手持ちのノギスで測定したら1.0だったかもしれません。
でももっと高分解能なノギスで測ったら1.001かも。1.000001かも、0.99999999かも。
この考えを発展させると一度観測した計測値をまた再現するってほぼ不可能な感じ、しませんか?
そうなんです。計測値は厳密には一期一会なんです。
でも特定の範囲に入る数字なら再現性がありそうですよね。こういった事情から確率は面積、ひいては確率変数の範囲で決められるという訳です。
平均値の発生確率
さて、今までの話に戻りますと平均値ピンポイントの発生確率は0%です。
ではどのくらいの範囲を平均値の発生確率と取り扱いましょうか。
これに統計的な厳密性を持ってくるのは中々にしんどいですが、少なくともμ±1σは広すぎる気がします。例えば0.2σくらいとかどうでしょう。
こんなところが皆さん平均値って言っても許されそうな範囲な気がします。
さてこのオレンジの範囲(μ±0.2σ)に入る確率ですが、実は16%程度だったりします。
norm.dist(-0.2,0,1,true)-norm.dist(0.2,0,1,true)って感じでエクセル関数を使えば算出出来ますんで皆さん各々好きな範囲を打ち込んでみましょう。
そしてこの16%って値、かなり厳しいですよね。データをサンプリングすると10回中2回も引き当てられないって事ですからね。
確かに代表値ではあるかもしれませんが、多数派とは言えないですよね。
平均的な家庭というものが、中々見当たらないのもこんな理由からです。
なので皆さんも平均値を扱う場合には、それが決して多数派ではないという事は肝に銘じて取り扱ってください。
まとめ
平均値はイメージしやすい代表値であり、統計的にも取り扱いやすいので頻繁に取り扱われます。
ですが、平均値の発生頻度は実はそれほど多くはありません。実際にサンプリングすると平均値以外のデータを引くことの方が多いのです。
平均値を多数派として扱うと、分析を見誤ってしまう可能性が高くなります。
正規分布を理解して、正しく平均値と付き合っていきましょう。
用法用量を守れば、役立つ味方であることに変わりはないのですから。
コンテンツ紹介
昨今機械学習やディープラーニングなど、データを扱うための知識の重要度は日々増していっています。
そんな最先端のスキルを使いこなすには、土台となる統計学の知識が必要不可欠です。
しかしながら、統計学は本で読んでも何とか理論は理解できてもそこからどのように実務に活かしたら良いのか分からない。そんな机上と現実のギャップが凄まじい学問です。
そんな机上と現実のギャップを埋めるために、私は当サイトをはじめ様々なコンテンツを展開しています。
youtubeでは登録者1万人の統計学のチャンネルを運用しています。
動画投稿だけでなく、週2回のコメントに来た質問への回答配信も行っているので気になる方はどしどし質問をお寄せください。
youtubeでは無料動画だけでなく、有料のメンバーシップ限定動画も運用しています。
メンバーシップ登録リンク(押しただけで登録はされないので、気軽にクリックしてください)
エクセルやJAMOVIといった無料で使える統計ツールの実際の使い方。そして無料動画では敷居の高い(というよりマニアックゆえに再生数が見込めない(笑))解説動画をアップしています。
本を読んで実際に分析してみようと思ったけど、どうもうまくいかなかった。本では見かけない、あるいは難しすぎて扱えない手法があったという方。ぜひ一度ご参加ください(動画のリクエストがあれば反映させます)
「そうは言われても、うちのデータは統計学じゃ分析出来ないよ」
そういう方もいらっしゃると思います。私の経験上、そういったデータ分析が出来ない状況の一つとして量的変数として目の前の現象を扱えていないというものがあります。
私のnoteでは、過去私が製品開発を行う上で実践した分析しやすい数値の測定方法を公開しています。
私が開発活動する上で創意工夫を凝らして編み出してきたアイデアの数々を公開しています(私の知見が増えたら更新していきます)。本やネットではまず載っていません。うまい測定方法のアイデアが浮かばないという方はぜひこちらをご覧ください。
「いや、その前に使える手法を体系的に学びたいんだけど」
そんな方には、udemyの講座を推奨します。
初歩的な標準偏差から、実験計画法、多変量解析まで、実際に私が実用する上で本当に使用したことがある手法に絞って順序立てて解説しています。
どの手法が結局使えますのん?という方はぜひこちらをお求めください。
こんな感じで、様々なコンテンツを展開しています。
今後は品質工学や品質管理に重点を絞ったコンテンツなども発信していきます。
ぜひリクエストがありましたら、それらも反映させていきますのでまずはお気軽にご意見くださいな。
コメント