回帰関係から回帰式を導くことで、説明変数xから目的変数yを予測することが出来ます。
$$\overline{y}=a+bx$$
ですが、回帰関係で予測できるのはxに対してのyの平均値です。
ですので予測値と実測値にはどうしてもどうしても違いが発生します。
ここで注意すべきなのは、許容できるバラツキが測定誤差より小さい場合です。
回帰式としては正しくても、測定誤差より許容できるバラツキが小さいと当然実用することが出来ません。
というのも実際に私も直近でそのミスを犯してしまいました。
工場間のある装置のデータにおいて、同じサンプルでも機差が発生するために一つの管理値を設定出来ないという状態でした。
故に同じサンプルで工場間のデータを取り、基準機と各工場ごとの回帰関係から、装置ごとの回帰式を導き出せば、あとは工場ごとの回帰式に測定値を放り込めば、基準機と同じ測定値が得られると考えました。
確認したところR2も0.99台と相当高い値を示したのでこれはいけるとなり、仮運用を開始しました。
しかしながら、結果としては規格外れが出るわ出るわで。
確認すると、
・実測値の真ん中を回帰線が通るが、回帰線に対しての偏差の大きさが許容誤差を上回る
といったことが確認されました。
分かってみると初歩的な間違いなのですが、やっている最中は案外分からないものです。
R2を過信していると大きな間違いを犯すという良い薬になりました。
そもそも、一度回帰関係を見出したら、新しくデータを取りなおして実測値と回帰式からの予測値の一致度を確認すべきだったのです。
奇しくも本件は仮運用だったので、これが出来ていたことになります(そして本番で大事になることを未然に防いだ)
回帰に関わらず統計ツールを使用した際は、皆さんも実測データとの検証を忘れずに行いましょう。
コメント