そのデータがどのような分布をしているのかを知るためには、ヒストグラムを作るのが一番です。
という事で、私なんかはよく材料メーカーから度数分布表やヒストグラム表を貰ったりすることがあるんですが、不親切なところだと
平均値や標準偏差が記載されていない
なんていう衝撃的な状態で提出されることがあります。
度数分布表やヒストグラムに記載されている情報というモノは、集計値であり、生データではありません。
また、折角ヒストグラムが正規分布を形成していても、統計量が分からなければ、どの程度の確率で、どのような外れ値が発生するのか、全く分からないのです。
このような場合、そりゃ相手に統計量を教えろと言ったり、今後は記載するように叱り飛ばすのも手ですが、それでもあまり真面目に応じてくれないという可能性もなくはないです。
そういう時の為に、度数分布表やヒストグラムから平均値と標準偏差を導き出す手法を知っておきましょう。
比較的簡単で、便利です。
統計学がうまく使えなかった人はコチラ⇒統計学を活かす 解析しやすい数値化のノウハウ
ヒストブラムから平均値と標準偏差を求めよう
階級値を求めよう
今回のヒストグラムから統計量を求める上で重要な数字、それが階級値です。
階級値とは、簡単に言えば、ヒストグラムの級を代表する数値です。
今回は、各電気使用量における世帯数を表現した、以下のヒストグラムを例に考えてみましょう。
階級値とは、ここで言うと0~69(kWh)を代表する数字だったり、70~139(kWh)を代表する数字だったりします。
階級値は以下の式で導けます。
$$階級値=\frac{階級の端-階級の端}{2}$$
例えば、0~69(kWh)なら
$$階級値=\frac{69-0}{2}=34.5$$
例えば、70~139(kWh)なら
$$階級値=\frac{139-70}{2}=104.5$$
になります。
各級のど真ん中の数字を算出しているわけです。
それでは何故、級のど真ん中を代表値として算出するのでしょうか?
答えは単純で、級の中身が分からないからです。
そもそもヒストグラムとして集計すると、なぜ平均値などが算出出来ないかと言えば、級の詳細な中身が分からなくなるからです。
なので、何かしら代わりの値が必要なのです。
基本的にヒストグラムの級は、最頻値が真ん中に来るようにして級を作るように決められています。
つまり0~69の範囲における最頻値は34.5なのです。
0~69の級の内訳が分からないので、とりあえず最頻値である34.5を級の代表値として扱うという訳です。
ここを押さえればそれほど難しくはありません。
階級値を利用して平均値を求めよう
ここからヒストグラムに代わり、度数分布表を使って解説します。
その方が分かりやすいからです。
階級値まで、先ほどの公式で出した後、次は
$$階級値×度数(ここでいう世帯数)$$
を行います。階級値を何回足すのかをそれぞれ出すのです(加重平均と同じ道理です)
次に階級値×世帯数の総和を世帯数の総和で割ります。
$$平均値=\frac{\sum{(階級値×世帯数)}}{\sum{世帯数}}$$
計算すると、約135.7という数字になるはずです。
試してみて下さい
階級値から標準偏差を求めよう
次に標準偏差を求めます。
まずは、偏差を求めます。
各偏差は
$$偏差=階級値-平均値$$
です。
標準偏差では偏差を二乗してから平均値を求めていきます。
なので、偏差を二乗し、そこからは加重平均と同じ計算を実施します。
この偏差^2×世帯数を総和したものを、世帯数の総和で割れば、分散が算出出来ます。
この分散を平方根すると標準偏差になります。
約78.2という数値になるはずです。
計算してみて下さい。
また、注意点ですが、ここで求めた標準偏差は実際の標準偏差より小さくなります。
というのも、元の級には様々なデータが存在しているのに、階級値として一つの値しか使っていないからです。
級内変動を除外しているという事です。
なので、ヒストグラムで求めたばらつきは実際より小さくなるという事を肝において使用してください。
まとめ
世の中には、ヒストグラムを出しても平均値や標準偏差を出さない輩というモノが存在します。
それらの値が無ければ、予測も出来なくなるので、そんな場合は階級値を使って平均値や標準偏差を求めましょう。
平均値や標準偏差が求まるという事は、正規分布からの規格値の設定や、変動係数なんかも求まるという事ですから、ばらつきの比較も可能になります。
結構便利なテクニックなので、機会があれば使ってみて下さい。
統計学をうまく使うために・・・
「先ほど紹介された手法を使って業務改善を行うぞ!」
と今から試そうとされているアナタ。
うまくいけば問題ありませんが、そうでない場合はコチラ
統計学の知識を持っていてもうまくいかない場合というのは、そもそも相対する問題がうまく数値化、評価が出来ない場合というのが非常に多いのです。
私もこれまでそのような場面に何度もぶち当たり、うまく解析/改善が出来なかったことがありました。
このnoteはそんな私がどのように実務で数値化をし、分析可能にしてきたかのノウハウを公開したものです。
どんな統計学の本にも載っていない、生々しい情報満載です。
また、私の知見が蓄積されたら都度更新もしていきます!!
買い切りタイプなのでお得です。
ぜひお求めくださいな。
コメント
はじめまして。りおじーと申します。丁寧に解説していただいてありがとうございます。
一つ質問させていただいてよろしいでしょうか。
途中までの偏差の2乗かける世帯数までは理解できました。
そこから、世帯数(n)で割ると出てくるのはSD^2、つまり分散ではないでしょうか。
標準偏差を出すために、そこから分散の正の平方根を出す過程が必要ではないでしょうか。
教えていただければ幸いです。よろしくお願いします。
あっ本当だ。修正しますね。ありがとうございます。