最尤法による回帰分析 | マサムネの部屋

回帰分析の記事で、誤差関数なる謎の物を導入して、そいつを最小化すると書きました。その意味を説明します。今の段階では、ただの小話です。回帰分析の記事は以下をご覧ください。

今回の話に関係する書籍はこちら。後で解説する予定のガウス過程の本です。面倒な定義をうまく回避して解説してくれています。

重回帰分析と正規分布
リッジ回帰と正規分布
まとめ

重回帰分析と正規分布

重回帰分析を再発見してみましょう。回帰分析は以下の式を考えていました。
$$\begin{align}
y= \vec{w} \cdot \vec{x} + e
\end{align}$$
eを誤差関数と呼んでいました。eの正体を明かすと、$ p(e) = \mathcal{N}(e |0,\sigma ^2 ) $となる確率変数です。
正規分布に従う確率変数は線形変換しても正規分布なので、yは以下の確率に従います。
$$\begin{align}
p(y|\vec{x} )=\mathcal{N}(y| \vec{w} \cdot \vec{x},\sigma ^2 )
\end{align}$$
この確率を最大化するように、]$ \vec{w} $を決めましょう。このままだと大変なのでlogを取りましょう。
$$\begin{align}
\log p(y|\mathbf{X} ) \propto -\sum (y _i- \vec{w} \cdot \vec{x_i} )^2
\end{align}$$
最右辺は見たことありませんか? 最小二乗法です。重回帰分析は、誤差関数を導入した線形モデルで、yの取りうる確率を最大にするという操作と同じことでした。最小二乗法について確認するならこちら。

重回帰分析

変数が沢山ある場合の重回帰分析の解説をします。行列とベクトルを用いて式を書く事で、シンプルに結論までたどり着くことが出来ます。また、多重共線性という概念が自然に出てくることを見ます。

リッジ回帰と正規分布

次はリッジ回帰分析の再発見です。リッジ回帰分析は、パラメーター全体を押さえつけるペナルティ($ L^2 $項)が特徴でした。リッジ回帰の詳しい説明はこちら。

リッジ回帰分析

リッジ回帰の解説をします。重回帰分析にペナルティを課すモデルです。これによって、パラメーター全体が大きくなることが抑えられ、データ自体のバラツキを無視してくれるようになります。さよなら過学習。

$$\begin{align}
y= \vec{w} \cdot \vec{x}
\end{align}$$
において、$ \vec{w} $の成分を確率だと思います。
$$\begin{align}
p(w_i)=p(w_i |\mathbf{X} ) = \mathcal{N}(w_i |0, \lambda )
\end{align} $$
前の段落のように、
$$\begin{align} p(\vec{y} | \vec{w}, \mathbf{X} ) =
\prod \mathcal{N}(y_i | \vec{w} \cdot \vec{x_i} ,\sigma ^2 )
\end{align} $$
としましょう。定義から、$ p(y,|w,X) = p(y,w|X) p(w|X) $ が成り立ちます。前の段落のように最大化するために、log を取ると、関係する項は、
$$\begin{align}
\log p(y,|w,X) \propto \frac{1}{\sigma ^2 } \sum (y_i – \vec{w} \cdot \vec{x_i} )^2 + \frac{1}{\lambda ^2} \sum w_i ^2
\end{align} $$
この式をさらにまとめると、
$$\begin{align}
\sum (y_i – \vec{w} \cdot \vec{x_i} )^2 + \frac{\sigma ^2}{\lambda ^2} \sum w_i ^2\\
\| \vec{y} – \vec{w} \mathbf{X} \| ^2 +\alpha ^2 \| \vec{w} \| ^2
\end{align} $$
に比例している事が分かります。この式は…リッジ回帰の最小二乗法で出てきた式じゃないですか？
リッジ回帰は、パラメーターを確率変数だと思って、yの取りうる確率を最大にしたものだった事が分かりました。数学の、実はあいつは四天王の中でも最弱…みたいな所面白いですよね。
ここで注目したいのは、ペナルティ項の係数です。 $\sigma^2 $ がかかっています。つまり、データのバラツキより大きいか小さいかで、ペナルティのきつさが変わるという事です。ペナルティが緩いという事は、データのバラツキを沢山拾って過学習しやすいということです。実装の際は気を付けましょう。