回帰分析の記事で、誤差関数なる謎の物を導入して、そいつを最小化すると書きました。その意味を説明します。今の段階では、ただの小話です。回帰分析の 記事は以下をご覧ください。
今回の話に関係する書籍はこちら。後で解説する予定のガウス過程の本です。面倒な定義をうまく回避して解説してくれています。
重回帰分析と正規分布
重回帰分析を再発見してみましょう。回帰分析は以下の式を考えていました。
$$\begin{align}
y= \vec{w} \cdot \vec{x} + e
\end{align}$$
eを誤差関数と呼んでいました。eの正体を明かすと、\( p(e) = \mathcal{N}(e |0,\sigma ^2 ) \)となる確率変数です。
正規分布に従う確率変数は線形変換しても正規分布なので、yは以下の確率に従います。
$$\begin{align}
p(y|\vec{x} )=\mathcal{N}(y| \vec{w} \cdot \vec{x},\sigma ^2 )
\end{align}$$
この確率を最大化するように、]\( \vec{w} \)を決めましょう。このままだと大変なのでlogを取りましょう。
$$\begin{align}
\log p(y|\mathbf{X} ) \propto -\sum (y _i- \vec{w} \cdot \vec{x_i} )^2
\end{align}$$
最右辺は見たことありませんか? 最小二乗法です。重回帰分析は、誤差関数を導入した線形モデルで、yの取りうる確率を最大にするという操作と同じことでした。最小二乗法について確認するならこちら。
リッジ回帰と正規分布
次はリッジ回帰分析の再発見です。リッジ回帰分析は、パラメーター全体を押さえつけるペナルティ(\( L^2 \)項)が特徴でした。リッジ回帰の詳しい説明はこちら。
$$\begin{align}
y= \vec{w} \cdot \vec{x}
\end{align}$$
において、\( \vec{w} \)の成分を確率だと思います。
$$\begin{align}
p(w_i)=p(w_i |\mathbf{X} ) = \mathcal{N}(w_i |0, \lambda )
\end{align} $$
前の段落のように、
$$\begin{align} p(\vec{y} | \vec{w}, \mathbf{X} ) =
\prod \mathcal{N}(y_i | \vec{w} \cdot \vec{x_i} ,\sigma ^2 )
\end{align} $$
としましょう。定義から、\( p(y,|w,X) = p(y,w|X) p(w|X) \) が成り立ちます。前の段落のように最大化するために、log を取ると、関係する項は、
$$\begin{align}
\log p(y,|w,X) \propto \frac{1}{\sigma ^2 } \sum (y_i – \vec{w} \cdot \vec{x_i} )^2 + \frac{1}{\lambda ^2} \sum w_i ^2
\end{align} $$
この式をさらにまとめると、
$$\begin{align}
\sum (y_i – \vec{w} \cdot \vec{x_i} )^2 + \frac{\sigma ^2}{\lambda ^2} \sum w_i ^2\\
\| \vec{y} – \vec{w} \mathbf{X} \| ^2 +\alpha ^2 \| \vec{w} \| ^2
\end{align} $$
に比例している事が分かります。この式は…リッジ回帰の最小二乗法で出てきた式じゃないですか?
リッジ回帰は、パラメーターを確率変数だと思って、yの取りうる確率を最大にしたものだった事が分かりました。数学の、実はあいつは四天王の中でも最弱…みたいな所面白いですよね。
ここで注目したいのは、ペナルティ項の係数です。 \(\sigma^2 \) がかかっています。つまり、データのバラツキより大きいか小さいかで、ペナルティのきつさが変わるという事です。ペナルティが緩いという事は、データのバラツキを沢山拾って過学習しやすいということです。実装の際は気を付けましょう。
まとめ
・重回帰分析は、誤差が正規分布に従うと仮定してyの取りうる確率を最大化することと同義。
・リッジ回帰は、パラメーターが正規分布に従うと仮定して、 yの取りうる確率を最大化することと同義 。