みなさん、平均値はご存知ですよね?
恐らく分布を代表する統計量の中で一番最初に学校で習うもののはずです。
そして集団を比較する際に、最も多く使われる代表値でもあります。
たとえば、
・各クラスの数学の学力を比較するとき
・条件変更したときの効果を確認するとき
・地域別の売上を比較するとき
等々、挙げればキリがありません。
使い慣れていますし、集団の中心を表していると数式的にもイメージが付きやすいため各所で多用されています。
しかしながら、年収や貯蓄額のデータを集計する際平均値はある性質から、代表値としては不十分と議論される事が多いです。
そしてそのようなときに代わりに提案されるのが、中央値です。
さてそれでは、今後平均値は無視して中央値を使っていけばいいのでしょうか?
それは間違いです。
重要なのは平均値と中央値両方を見るべきなのです(さらに言えば他の値もどんどんみるべき)。
今回は中央値の計算方法、平均値と中央値の特徴、そして平均値と中央値を併用するべき理由について解説していきます。
youtubeでも解説しているので、こちらも併せてご覧ください。
平均値と中央値の計算方法
平均値の計算方法
平均値の計算方法は皆さんご存知のことでしょう。
改めて言うまでもありませんが、集団の数字をすべて足し合わせ、それを数字の個数(N数)で割るというものです。
数式でカッコよく表現すると、
$$μ=\frac{1}{n}\sum_{i=1}^{n}{x_i}$$
このようになります。
ちなみにμは平均値、nは数字の個数です。そしてΣ関連は数字の1個目からn個目まで足し合わせるという意味になっています。
つまり先述の内容をそのまま表したものになります。
例えば
1,2,5,4,1,6
という集団がある場合、平均値は
$$平均値=\frac{1+2+5+4+1+6}{6}=3.2$$
になります。
中央値の算出方法
中央値は、データを小さい順(もしくは大きい順)に並べたときに集団のど真ん中(2分する)に位置する値になります。
先程と同様
1,2,5,4,1,6
という集団で考えてみましょう。
まずは、大きさの順に並べ替えます。すると
1,1,2,4,5,6
となります。そしてこの場合ど真ん中にくる数字は2と4の間という事になります。
つまり3が中央値になります。
これが中央値の算出方法になります(算出というには煩雑ですが・・・)。
それぞれの値の特徴
平均値の特徴
平均値には外れ値に引っ張られやすいという特徴があります。
外れ値とは、その集団において不自然に大きい(もしくは小さい)値を指します。
以下のような集団で考えてみます。
1,2,3,4,100
この場合、100だけ他の数字に比べてあまりに大きすぎるので、外れ値になります。
100を除外して平均値を算出すると、
$$平均値=\frac{1+2+3+4}{4}=2.5$$
と集団を代表すると言っても差し支えない値になります。
ここで100を戻してみるとどうなるか見てみましょう。
$$平均値=\frac{1+2+3+4+100}{5}=22$$
22という明らかに100に平均値が引っ張られた結果になっています。
このように平均値は全ての数字の総和をサンプルサイズで割るため、どうしても外れ値の影響を受けてしまうのです。
その上、サンプルサイズが小さい時ほど、外れ値の影響は大きくなります。
これが平均値の特徴になります。
しかしながら、平均値は標準偏差と並んで正規分布のパラメータ―の役割を果たしもするため統計的に非常に活用の場面が多いという特徴も持っています。
つまり
・外れ値に弱い(特にサンプルサイズが小さい場合)
・統計的に活用しやすい
という特徴を持つわけです。
中央値の特徴
中央値の特徴は、平均値と好対照となります。
つまり
・外れ値に影響を受けにくい
・統計的に活用の場面が少ない
のです。
まず外れ値への影響についてですが、これも同様に先ほどと同じデータで考えてみます。
1,2,3,4,100
外れ値100を除いた場合は2と3の間にある数字が中央値になるので、2.5が中央値になります。
対して外れ値100を戻した場合は、3が中央値になるのです。
どうでしょう。外れ値の有無に関わらず中央値は集団の代表的な値を示しているとは思いませんか?
これは外れ値がどのような値を示そうとも1,2個混入した程度では、大きい方(または小さい方)に1,2個ズレる程度で済むためです。
値の大きさではなく、外れ値の個数の方が効いてくるわけです。
(さらに言うと、外れ値が無視できないほど増えればそれはもう外れ値ではありません)
年収や貯蓄額の話題で中央値が重要視される理由
直近でこのような記事がありました。
参考元:平均貯蓄額1,752万円“6割超が平均値以下”…格差社会のリアルが明らかに
ことお金に関する話題で統計調査すると、大金を有した数少ない富裕層に平均値を引っ張られてしまうのです。
なので、少数のデータに影響を受けにくい中央値を参考にしろと叫ばれるのです。
平均値と中央値を併用しよう
なぜ片方ではダメなのか?
テレビ等のメディアでは、よく中央値に焦点が当たりがちです。
ですが、データを分析する上ではそれでは不十分です。
なぜならば、単一の統計量では限定的な情報しか分からないからです。
例えば、中央値だけに注目してみると、先ほどのグラフでは、
・2人以上の世帯の貯金額はおよそ1000万円
という事しか分かりません。
それ以上の情報を得る事は出来ないのです。
これでは折角労力を費やして調査をしたのに甲斐が無さすぎるというものでは無いですか。
両方の値に注目しよう
ここで平均値も見てみましょう。
平均値は約1700万円です。
中央値より700万円も大きい方に偏っています。
平均値が少数の大きな値(=外れ値)に引っ張られやすいという性質を考慮すると、
・2人以上の世帯の貯金額はおよそ1000万円
だけでなく、
・少数の富裕層によって700万円も平均値が歪んでいる。つまり貯蓄格差が生じている
という事実も知ることが出来ます。
中央値と平均値を見比べる事で、小さくない格差が生じている事が分かるのです。
このように統計量を見る時には単一ではなく、複数の統計量を算出して比較したりすることで、様々な事実が見えるようになってきます。
更に他の分析も追加すると・・・
このグラフは2016年の分析結果のようです。
おそらく過去のデータもあるはずです。
であれば、例えば各年の中央値と平均値を線グラフでプロットするという方法も取れるはずです。
もしかしたら以下のようなグラフが得られるかもしれません。
もしこのようなグラフが得られたら、更に
・年々格差は増大している
という結果も得る事が出来ます。
これ以外にもパレート分析をしても良いですし、最頻値に注目しても面白いでしょう。
このようにデータを分析するときには、様々な分析方法や統計量を算出して比較したりするのが重要なのです。
単一の統計量では得られる結果は限られてきます。
仕事で統計を活用するのであれば、様々な手法を覚えてとりあえず色々計算したり作図したりしてみるべきなのです。
まとめ
平均値と中央値はそれぞれ集団のど真ん中を示す値ですが、
平均値:外れ値に弱い
中央値:外れ値に強い
という特徴があります。
このそれぞれの特徴を生かすことで単一の統計量では知り得ない分析結果も得られるようになります。
単純に様々な統計量を算出して比較するようになるだけでも、データ分析のレベルは一つ上がることになります。
ぜひ皆さん癖付けして、正しい結果を求めていきましょう!
当サイトを閲覧下さる皆さまは、日々より良い仕事が出来るようになりたいと思われているビジネスパーソンがメインだと思います。 でも「時間が無い」、「セミナー行くの面倒くさい」といった理由で中々学べていない方も多いと思います。 このビジネス動画学習サービスでは、いつでも、どこでもスマホ一つでビジネススキルを隙間時間で学ぶことが出来ます。 youtube紹介はこちら
コメント