統計的解析を実施する場合は4つのポイントをおさえよう

コラム

統計的手法は、比較や傾向分析をするうえで確率という数値で答えを示してくれるため、うまく扱えれば仕事をするうえで非常に助けになるツールです。

戦略立案、マネージメント、製造品質管理、技術開発等様々な場面で活用可能なため、利用出来る職種を選びません。

現代のサラリーマンにとって、エクセルの技術と同等以上の必須スキルと言えます。

ですが、統計的手法は、ただ手法を知っていて闇雲に扱えば良いというものではありません。

あくまで数学的理論に裏付けられた道具であるために使い方を誤ると、間違った判断のもとになってしまいます。

統計的手法を扱う上で大事なことは

①目的を明確化する。

②正しい手法を選ぶ

③正しくデータをとる

④解析結果を考察する。

の4点です。

今回は、そんな統計的解析の4つのポイントを解説いたします。

スポンサーリンク

目的の明確化

手を動かす前に目的をはっきりさせよう

統計に限らず、仕事上で実際にアクションを起こす前には、その仕事の目的は何か、どういった答えを欲しているか、明確にしておく必要があります。

とりあえず動いてはみたものの、出た結果について

「えーっと、次どうしよう?」

と無駄足を踏んでやらかしてしまった事、ありませんか?

統計的手法で分析する際も同様で、有益な答えを得るためには、まず目的を明確化しておく必要があります。

例えば学生の頃テストの点で、先生がクラスの平均点をよく発表していたと思いますが、これは各クラスの学力を比較するという目的のもとに平均点を算出しています。

ある製造ラインの製品品質が、±3σ以内に収まっているかどうかを確認するのは、0.3%以下でしか発生しない異常品を検知するという目的のもとに行っています。

これをやっていないと、平均値を算出したり、品質の値が3σ内に収まっていたとしても

「えーっと、それで?」

となってしまいます。

ただの数字遊びになってしまいます。

誰かに報告する場合、目的がはっきりせずに数字だけ報告しても

「それでどうかしたの?」

となってしまうわけです。

思考フローを構築できる

そもそも目的を明確化していると、回答を想定しておくことが出来ます。

各クラスの学力を比較するという目的の場合、アウトプットのパターンは

・A(B)よりB(A)が学力が高い

・AとBの学力は同程度である。

の2つに絞られます。

上司に報告する内容は、道筋は違えど、この2つのうちのどちらかになってしまうのです。

そこまで想定出来ていれば、上司(または顧客)が望む回答と望まない回答も、自ずと浮かび上がってきます。

望む回答ならまだしも、望まない回答が得られた場合は、

「解決策は何か?」

という問いが当然発生します。

そして、この問いに対応するために、事前にどういった分析手法を運用すべきか。

どういった可能性により不味い結果に至り得るか。

そしてその解決法として何が考えられるか。

これらを思考する必要性が発生します。

つまり目的を明確にするだけで、仮の思考フローを構築することが出来るのです。

なぜこのような事が出来るのか。答えは簡単です。

現状をスタート、目的をゴールとした場合、歩く道はその2点を結んだ直線になるからです。

現状を正しく把握し、目的を明確に定めれば、道筋が浮かんでくるのは当然なのです。

この思考フローを構築出来た段階で、自然と『正しい手法を選ぶ』ことが出来るようになりますし、事前に上司や顧客と調整をすることも出来るようになります。

これほどまでに、目的の明確化というものは重要なのです。

スポンサーリンク

正しい手法を選ぶ

目的別での手法の選択

例えば目的が

AクラスとBクラスの数学の学力を比較する、という場合は

・平均値の算出

・平均値の差の検定

という手法を使うことになりますし、

Aクラスの国語の成績と数学の成績の”ばらつき”具合の差を比較する、という場合は

・標準偏差の算出

・分散の差の検定

という手法を使うことになります。

このように目的によって、当然扱うツールが異なるというわけです。

また対象とする統計量は同じでも目的が違えば、扱う分析手法は変わってきます。

例えば平均値を扱うにしても

・ある特定の値と等しいかを検定する⇒検定

・母集団の平均値が、どのような値を取り得るのか。⇒区間推定

というように、様々な手法があるのです。

また同じ分析目的でも、採取したサンプルサイズで扱う手法が変わってきます。

更に対象としている母集団が正規分布であるか否かでも、使用出来る分析手法が変わってきます。

一般的な書籍では、「この場合はこの手法を使おう!」という議論に対しての言及が軽いように私は感じます。

手法を選択ミスしてしまったら、誤った分析結果が導かれるのにも関わらずです。

一体私たちはどのようにして最適な手法を選べばいいのでしょうか?

最適な手法を選択しよう

そんな「どうやって最適な分析手法を選べばいいのか分からない」となった場合は、

以下のように目的を分解してみてはいかがでしょうか。

まず、統計的分析手法で知りたい内容は、基本的に

・比較すること

・推測(推定)すること

・相関関係を把握すること

の3つになると思います。

ですのでまずは、

・最初に掲げた目的が比較、推定、相関のいずれに類推するのか、分類しましょう。

次に

・扱うデータが数値データ言語データかをしっかり認識しておきましょう(言語データの場合は数量化が必要になり、大分厄介です)。

次に

・数値データの場合、計量値計数値かを把握しておきましょう。

計量値とは量る数値のことで、重さや長さのように数値が連続するものを指します。

計数値とは数える数値のことで、ものの個数のように数値が不連続のものを指します。

計量値か計数値かで、取り扱う分布の形が変わるので、当然分析手法も変わってきます。

次に

・サンプルサイズがどれだけ採取できそうか把握しておきましょう。

先述したようにサンプルサイズの大小で扱える分析手法が変わってきます。

統計量を扱う場合は、サンプルサイズが大きいに越したことはないのですが、検定を行う場合は必ずしもそうではないので、注意が必要です。

ここまで分析対象に対して条件を詰めておけば後は、書籍やネットで適合しうる分析手法を調べて、計算や解析そのものはエクセルや統計ソフトに丸投げすれば、そこまで誤った結論にはならないはずです。

もし分析手法に迷ったら

・比較、推定、相関のいずれか

・データは数値か言語か

・数値の場合、計量値か計数値か

・採取可能なサンプルサイズはどれだけか

を一つずつ押さえていきましょう。

スポンサーリンク

正しくデータをとる

偏りなくデータを採取する

データを採取する際は、母集団を偏らずに正しく代表するものでなければなりません。

例えば一杯のコップの水に塩を投入した場合、

①かき混ぜずに上澄みを味見した場合は、塩味がほとんどしない

②よくかき混ぜた後に上層を味見した場合は、塩味がする

という状況を考えた場合、味見した塩水のデータを正しく採取できているのは、後者の②かき混ぜた方です。

①混ぜてない方は、コップの上層と下層で塩分濃度が異なっているために、上層だけを味見では、コップ全体を代表出来ていないのです。

対して②かき混ぜた方は、かき混ぜることでコップの上層と下層の塩分濃度が均一になるために、上層を味見するだけでコップ全体を代表出来るのです。

もし①混ぜていない方のデータを正しく採取するのならば、上層から下層まで一定の間隔
(深さ何cm単位とか)で採取していく必要があります。

ここで問題になるのが、母集団が不均一均一、いずれの状態かということです。

なぜならば不均一の場合、先ほどの塩水のように一部分のデータを採取しただけでは、母集団を代表出来ていない可能性があるからです。

無難なのは基本的に不均一という前提で、満遍なくデータを採取していくことです。

しかしながら、先ほどの塩水の例でも分かるように、満遍なくデータを採取することは労力が掛かります。

大変なんです。

様々な業務を抱えた状態で、毎度データ採取に力を掛けるというのは、重要だと分かってはいても難しいものがあるのです。

故に現実味のある折衷案としては、

・初めての案件の場合は、不均一と仮定してデータを満遍なく採取する

・集団が不均一か均一か分析する(計測したデータを並べればOK。手法は特に必要なし)

・不均一の場合は、どのように不均一か規則性を探る(先の塩分の場合、底に行くほど塩分が濃くなる等)

・2回目以降は均一の場合は一部のデータを、不均一の場合は前回の規則性を活かして最低限の労力で採取する

このあたりが妥当なところと思います。

最初だけ力を入れて、2回目以降は必要最小限に労力を抑えるのです。

やる必要のない仕事は、極力やらないようにするというのは、とても大切な考え方です。

適切なサンプルサイズを採取する

データを採取するにしても、あまりに少なすぎると正しい評価はできません。

平均値は大したデータ数は必要ないですが、標準偏差などの”ばらつき”の場合は数十のデータはないと信頼性に欠けます。

今どの程度サンプルサイズが必要なのかは、しっかり見極めてからデータ採取を始めないと、精度が悪いか、サンプルの採りすぎに陥ってしまうので、最初にしっかりチェックしましょう。

スポンサーリンク

解析結果を考察する

予想と分析結果を照合しよう

そもそも、統計による分析結果はある確率をもって導き出されるものなのに、なぜ考察が必要なのでしょうか。

皆さん、統計的手法を扱う上で、

「統計的手法にとりあえず当てはめたら、今まで分からなかった意外な事実が分かるはずだから、調べる対象についての知識はそれほど重要ではないのでは?」

と思っていたりしませんか?

もしそう考えているのであれば、それは間違いです。

これまで『統計的解析を行う上で重要なこと』シリーズで言及してきましたが、目的から扱うべき手法を選択しているので、手法を経て導き出された結果は、あらかじめ予測されたものになります。

例えば

・集団AとBは等しいのか否か(→2択)

・要因A,B,Cのいずれが、結果Yに大きな影響を与えているか(→4択)

・集団Aの代表値は特定の数値と等しいのか否か(→2択)

等々分析する前に、出るべき答えは絞られているのです。

つまり統計的手法で、まったく予想していない結果が出ることはありません。

そして、この答えの予想をする場合、おそらくこちらの答えだろうというアタリを意識、無意識に関わらず皆さんつけるものと思います。

そして、このアタリと統計による分析照らし合わせこそが、この最後の『考察』なのです。

汎用知識と専門知識のせめぎ合い

そして、この照らし合わせで必要になってくるものが

①統計的手法への理解度(汎用知識)

②分析対象への理解度(専門知識)

になります。

そもそも先ほどの”アタリ”をつけるためには、分析対象への専門知識が必要不可欠です。

専門知識とは例えば、

製造現場であれば、機械や生産する製品の

技術であれば、開発、研究対象への

営業であれば、顧客、業界への

ものです。専門知識が全くなければ、何を分析すれば良いのかも分かりませんし、当然答えにアタリをつけることも出来ません。

 

統計による分析では、この専門知識からのアタリと統計知識からの分析結果の食い違うが頻繁に発生します。

そのような場合、

「統計が絶対正しい」

「いや、統計が絶対間違っている」

という対処をしてはなりません(やりがちですが・・・)

このような場合は、生データを確認したり、グラフ化したりして視点を変えながら確認していきましょう。

また、例えば統計の範疇では有意差なしという結果でも、当該の分析対象、分析分野では致命的な差であるという場合もありますので、なぜ有意差なし等の結果をその分析手法が導き出したのか検証しましょう。

スポンサーリンク

まとめ

今回は統計的手法を進める上でのフローを紹介しました。

そのフローとは

①目的を明確化する。

②正しい手法を選ぶ

③正しくデータをとる

④解析結果を考察する。

の4点です。ここを確実に押さえて分析すれば、統計の知識、分析対象に対する専門知識を余すことなく活用できると思います。

そして統計的な手法を活用できるという事は、それだけで高い市場価値を有した人材であるとも言えます。

ぜひ、マスターし、活用し、市場価値の高い人物となってください。

 

コラム
スポンサーリンク
シグマアイ-仕事で使える統計を-

コメント