分布を比較する手段として、よく使われるのは

「(算術)平均の比較」

です。

しかしながら、こちらはサンプルサイズが小さい場合や外れ値が存在している場合は正しい比較が出来ないことがあります。

「そんなの知っているよ」

と言われる方も多いとは思いますが、このような

「なんでもかんでも、この手法でやっておけば良いんだ」

という一種の思考停止というか、杓子定規的に統計の手法を当てはめてしまう事ってありませんか？

気を抜いていると、このような事態になってしまうことって結構あると思うのです。

今回は、(私自身への戒めもかねて)杓子定規的シチュエーションを列挙してみたいと思います(意識して回避するために)。

とりあえず代表値を使う

一番やりがちなのが、中央の値は”平均値”、ばらつきの値は”標準偏差”という固定観念に縛られるシチュエーションです。

平均値も標準偏差もいずれも、値すべてを足してサンプルサイズで割るという算出の仕方をしているので、外れ値やサンプルサイズが小さい場合精度を欠きます。

このような影響が考えられる場合は

平均値の代わりに中央値

標準偏差の代わりに四分位範囲

といった頑健性の高い代表値を使うべきです。

しかしながら、平均値と標準偏差が使用出来る場合は、そこからどのような分布になるのか、値の発生確率はどのくらいか予測が出来るので、絶対に中央値や四分位範囲を使えという訳でもありません。

手法に最適なサンプルサイズを考えない

平均値を算出する際は10以下のサンプルサイズで十分ですし、標準偏差を算出する場合は30もしくは50は欲しいところです。

ではサンプルサイズは大きければ良いのかというとそうではありません。

検定においては、サンプルサイズが大きすぎると中心極限定理で分布が狭くなるために、過剰に帰無仮説を棄却してしまう可能性が高まります。

このように狙っている手法ごとで適切なサンプルサイズが存在します。

採取する分にはいくらでも取ればいいとは思いますが、手法によってそこから使用するサンプルサイズを設計し必要によっては間引いて使用する必要があると考慮しておくべきです。

母集団が正規分布であるかどうかは、特に検定、推定においては極めて重要な前提条件です。

検定や推定を行う前は正規性の検定を実施し、検定結果によってはパラメトリック分析かノンパラメトリック分析かを選択する必要があります。

このように、代表値においても、サンプルサイズにおいても、検定の手法においても

「とりあえずこれにしておけば良い」

といったものは一つもありません。

そもそも導き出される回答からして、「ある確率」でという但し書きの上でしか成り立たないのです。

手法の絶対化は望むべくもありません。

かと言って統計が使い勝手が悪いかといえば、そんなことはありません。

そもそもこの世に「万能な道具」は存在しません。

手法が道具が数限りなく存在するということは、それだけ「うまく使い分ける」ことを前提にしているということです。

皆さんの統計手法を扱う場合には、「この手法で大丈夫か」と立ち止まって考えてみてください。