今回は改めて平均値(算術平均)の特性について解説したいと思います。
1.データの一次式の平均は平均についての同じ一次式
言い回しが分かりづらくて申し訳ないのですが、式で表すと以下の関係のことを言います。
$$y_i=ax_i+b$$
の場合
$$y_a=ax_a+b$$
が成り立ちます。ただしyi、xiはyとxの個々のデータで、ya、xaはyとxの平均値です。
つまり、個々のデータyiとxiとの間の一次式はそのまま両者の平均値の間にも成り立つのです。
2.平均からの偏差の和は常に0
つまり
$$\sum_{i=1}^{n}{(x_i-x_a)}≡0$$
ということです。≡は常に等しいを指します。
偏差はxがxより大きくなればプラスに、xがxより小さくなればマイナスになり、こちらの式はデータ全体ではこの偏差がプラスとマイナスで打ち消しあって0になるということを示しています。
これは標準偏差を算出する際に、偏差平方和を利用する理由にもなっています。
3.平均からの偏差の平方和は他のいかなる一定値からの偏差の平方和よりも小さい
式で表すと以下になります。
$$\sum_{i=1}^{n}{(x_i-x_a)^2} < \sum_{i=1}^{n}{(x_i-b)^2}$$
この性質は以前に回帰式において最小二乗法を活用するうえで利用した性質です。
また不偏分散や不偏標準偏差において、nではなくn-1を利用する理由にもなっています。
詳細は割愛しますが、ここでサンプリングしたときの分散と母分散の関係を考えてみます。
サンプリングしたときの分散は
$$s^2=\frac{1}{n}\sum_{i=1}^{n}{(x_i-x_a)^2}$$
になります。一方母分散は
$$σ^2=\frac{1}{n}\sum_{i=1}^{n}{(x_i-μ)^2}$$
になります。
このときに分散s2の方はサンプリングした平均値で算出しているのに対して、母分散σ2は母平均を使っています。
同じ平均値と思われるかもしれませんが、母平均はサンプリングした平均とは値が異なる可能性があるので、「平均値ではない一定値」になります。つまり
$$\frac{1}{n}\sum_{i=1}^{n}{(x_i-x_a)^2} ≦ \frac{1}{n}\sum_{i=1}^{n}{(x_i-μ)^2}$$
になるのです。
つまりnのままで計算するとサンプルからの分散は、母分散より過少に評価する傾向があると言えます。よってn-1で割ることで過小評価を補正しているのです。
まとめ
今回は平均値の性質について解説しました。
実際に仕事で統計を使う際には、扱う機会はそれほどないように思います。
しかしながら、多くの統計的手法の根底にある原理であったりするので
「ふ~ん、こんなものがあるんだな」
くらいには認識しておいてもいいかと思います。
コメント