回帰分析とはなんだろうか?最小二乗法?それはパラメータの推定方法の一つであって,回気分析そのものではない.
例として,YをXに回帰する状況を考える.これは,YをXの関数として表現したいということである.Xの関数を特定することが回帰分析である.このとき,Xの関数を回帰関数といい$m(X)$と表記する.数式に落とすと以下の通り.
$$ Y = m(X) + \varepsilon $$
回帰関数とYの差(つまり誤差)が大きいと困る.YをXの関数としてうまく記述できてない.そこで,損失関数を考える.
$$ L(Y,m(X)) $$
損失関数は,2つの引数の差が大きくなれば,大きな値を出力する関数である.適当な損失関数を最小化するような回帰関数$m(X)$を見つけることが回帰分析の本質である.
損失関数の候補はいくつかある.まずは2乗であろう.微分可能なので解析的に解ける.続いて絶対値.これは解析的には解けないが,外れ値に強い.最後に指示関数.これも解析的には解けない.
ここで重要なのは,最小化の目的関数たる損失関数が異なるので,当然$m(X)$も異なるということである.
具体的な計算対象は以下のように記述できる
$$ m(X) = \argmin_{m(x)}\mathbb{E}[L(Y,m(X))\mid X = x] $$
なぜ期待値を取るのかというと,損失関数の期待値たる期待損失を最小化したいからである.だって,YやXは確率変数だから
なぜ条件付けるのかというと,関数として表現したいからである.
損失関数に平均二乗誤差を採用した場合,(損失関数を最小化するような)回帰関数は条件付き期待値関数になる.
$$ \begin{aligned} m(X) &= \argmin_{m(x)}\mathbb{E}[L(Y,m(X))\mid X = x]\\ &=\argmin_{m(x)}\mathbb{E}[(Y-m(X))^2 \mid X = x]\\ \Leftrightarrow\\ &\frac{\partial}{\partial m(X)} \mathbb{E}[(Y-m(X))^2 \mid X = x] = 0\\ \Leftrightarrow\\ &2\mathbb{E}[Y-m(X) \mid X = x] = 0\\ \Leftrightarrow\\ &\mathbb{E}[Y \mid X = x] = m(X)\\ \end{aligned} $$
よって,損失関数を二乗誤差とした時に期待損失を最小化させる回帰関数は条件付き期待値関数であると決定される.
再び数式に落とすと以下のようになる