はじめに
統計学
その名を聞いたことがない人は、稀でしょう。
2019年現在では、ビッグデータ、AI、ディープラーニングなどのワードが大変流行っていますし、製造現場においてはSPCに活用され、営業においては戦略を立てる上でも重要視されており、仕事をする上で本来避けて通れない学問のハズです。
しかしながら、私の周りには最低限の統計学も知らない人や活用していない人が多いのです。
巷では流行りながらも、活用されていない。
「とりあえず統計学ってヤツを使えば、何か魔法のように現状が良くなるらしい。」と信仰されているように見受けられる。
一昔前の奥様とみのもんたの関係を彷彿とさせます。
私の周りだけが特別に意識が低い可能性もあるかもしれませんが、ネットを徘徊していても
・ビッグデータや機械学習がスゴいと持て囃されているが、実用に繋がるような記事が見当たらない。
・昔ながらの統計的工程管理(SPC)以外に、仕事で統計学を活用するような記事が見当たらない
・仕事で統計のスキルを使う場合に、気になる事(サンプルサイズや正規性の確認方法)に言及した記事が少ない。
など、どうにも仕事で頻繁に活用されていれば挙がってくる疑問、言い換えれば生々しさや泥臭さが欠如している。
私はそう感じています。
そこで当サイトでは、仕事で活用できる統計学、活用する上で疑問に思ったことをコラムとしてアップする事で、世の中にもっと地に足の着いたツールとしての統計との付き合い方を広める活動を行っています。
そしてこのページでは、まず統計のイロハを理解するために読むべき記事を挙げていきますので、統計についてよく知らないという方は、このガイドラン通りの順番で読んでいってみて下さい。
統計学ってなんだ?
“ばらつき”って何?
統計学を説明する前に、まずは”ばらつき”に関して理解することが大切です。
“ばらつき”とはその名のごとく、ばらついている事、散らばっている事ですが、数式でどのように表現しているのか知らない人も多いと思います。
数式では”ばらつき”は
『集団を代表する値(主に平均値)から、どれだけ離れているか』
で表現されます。
集団を代表する値は、一般的には平均値ですが、場合によっては中央値でも良いのです。
そして統計学では、平均値に対しての”ばらつき”である標準偏差をメインで扱っており、第一の壁として標準偏差の理解が立ちはだかります。
躓きやすいです。
しかしながら、”ばらつき”のイメージを踏まえた上で、以下の標準偏差の記事を読んで頂けると、ちゃんと理解して頂けると思います。
そして標準偏差を始めとした”ばらつき”の指標には様々な性質があります。
外れ値に対しての強い弱いとか、足し引きするには分散にしないといけないとか・・・
そのような特徴を捉えるためには、以下の記事を読んでみて下さい。
正規分布の重要性
統計学において、最も重要な代表値は平均値と標準偏差です。
その理由としては、統計学の手法はそのほとんどが正規分布を前提として構築されている為であり、そして正規分布の形状を決定づける値が、平均値と標準偏差であるからです。
正規分布は、連続する値が特に意図的な操作が行われない場合、最も頻繁に現れる分布です。
SPCにおいて、統計学が適用される理由も生産ラインで作られる製品の”ばらつき”が正規分布を形成しやすいという特徴があるためです。
しかしながら、毎回必ず正規分布になるとは限りません。
故に分析対象が正規分布であるか(これを正規性と呼びます)をチェックする必要があります。
正規性の確認手法は、実はあまりメジャーではなく網羅的に解説した書籍が見当たらないのが現状です。
これが私が「皆本当に言うほど統計使っているの?」と疑問を持った理由の一つです。
実際に正規性の確認は、難しいものが多く私もよく理解出来ていません。
ですが、そんな中でも理解しやすく、扱いやすい手法もあります。
以下の記事では、その手法Q-Qプロットを紹介していますので、ぜひ読んでみて下さい。
結局統計って何なんだ?
統計は”ばらつき”を扱う学問です。
ではどのようにして扱う学問か?
統計はより厳密に言えば、“ばらつき”の規則性を分析する学問です。
データの”ばらつき”は大別すると、
・特定の要因に基づく”ばらつき”
・特定の要因が見当たらない誤差に基づく”ばらつき”
の2種類があります。
データに含まれる”ばらつき”をこの規則性の有無で峻別し、分析する手法が統計学です。
この特徴を最も色濃く反映させた手法が、分散分析です。
第二の壁 検定
統計学の中で、最も便利な手法はおそらく仮説検定です。
数字を扱う上で、リスク込みではありますが、
「この値とこの値は差が有るよ」
と示してくれるというのは、非常にありがたい事なのです。
ですがこの仮説検定、考え方が日常からかけ離れすぎていて、理解するのにかなり難儀します。
最初私も訳が分かりませんでした。
標準偏差に続く、第二の壁と言っても良いでしょう。
この第二の壁を乗り越えるためには、まず検定の考え方を捉える事が重要です。
以下の記事では、検定の考え方に対して分かりやすく書いたものですので、ぜひ読んでみてほしいです。
また、考え方を覚えた上で次に進むステップとしては、正規分布を使った平均値の検定が良いでしょう。
特に分散既知のものが、教科書でも最初に取り上げられます。
分散既知で平均値の検定をしたいというシチュエーションはまずありえないのですが、式がシンプルで検定というものを理解しやすいため、
「使えないからいいや」
と言わず、まずは読んでみてほしいです。
まとめ
ここまで、アウトラインに従って読んで頂ければ、統計に対しての苦手意識も薄れているのではないでしょうか。
統計がここまで持て囃されながら、どうにも浸透していないのは、おそらく
「数式がいっぱいで難しそう」
という苦手意識によるものだと私は思います。
実際に手法によっては、非常に難易度の高いものもあります。
しかしながら、全部が全部難しいわけではありませんし、仕事で統計学を便利ツールとして扱う上では難しくないツールだけで十分です。
無理して多変量解析や機械学習なんかを扱う必要はないのです。
それに、何事も使っていけば覚えますし、使わなければ理解出来ません。
皆さんにはぜひ、当サイトを読んでイメージを掴んで頂き、実際に使ってよりイメージを深めたうえで、ちゃんとした書籍を読んでもらって理解を深めてもらいたいです。
正直な話、当サイトだけで統計を勉強しようとは思わないでください。
当サイトに限らず、このような学問的なものはネットではなく、ちゃんとした書籍で勉強すべきです。
ただ、書籍は簡単な入門書から専門書までの段階まですっ飛び過ぎていて、取っつきにくくなっていると思います。
入門書から専門書までの丁度いいところが抜けている。
当サイトはこの丁度いいところの石段に成れればと思い設立、運営しております。
逆に言えば、イメージが掴み終えれば、それは当サイトの役割が終わるという事でもあります。
私は当サイトに来ていただいた皆さんが、無事イメージを掴んで頂き、当サイトの需要が無くなる事が最上であると信じております。
皆さんの統計リテラシーの向上し、生産性の向上を切に願って。
シグマアイより