正規分布の多次元バージョンの分布があり、多次元(多変量)正規分布と呼びます。定義から初めて、諸性質を解説します。
多次元正規分布の定義
d次元の多変量正規分布は以下の式で表されます。
$$\begin{eqnarray}
p(x|\mu , \Sigma )=\frac{1}{\sqrt{ (2\pi )^{d} |\Sigma |}} \exp \left( -\frac{1}{2} (x -\mu )^{T} \Sigma^{-1}(x-\mu) \right)
\end{eqnarray}$$
\( \mu \) を平均値、\(\Sigma \) を分散と呼びます。ただし、\( \Sigma \)はd次正方行列で、正定値対称行列です。行列Aに対して\( |A | \)でAの行列式を表しています。 \( A ^{-1} \) はAの逆行列です。ベクトルは縦ベクトルだと思っています。1
2次元の場合のグラフを描くと、以下のようになります。
正規分布の拡張になっていることを確かめる為に、d=1の場合を考えてみましょう。
1次元の行列は数字なので、行列式は行列自身です。逆行列は逆数になります。1次元の時は、ベクトルの転置をとってもそのままです。同じ記法で多次元正規分布の式を書くと以下の式になります。
$$\begin{eqnarray}
p(x|\mu , \Sigma )=\frac{1}{\sqrt{ 2\pi \Sigma }} \exp \left( -\frac{1}{2 \Sigma } (x -\mu ) (x-\mu) \right)
\end{eqnarray}$$
\(\Sigma \)は正定値だったので、\( \Sigma >0 \)です。このことから、\( \sigma ^2 =\Sigma \)と置きなおしても問題は起きません。この置き換えで、正規分布が再現されます。この意味で、多次元正規分布は正規分布の拡張になっています。
多次元正規分布の最尤推定
正規分布と言えば、パラメーターの最尤推定の結果と、データの標本平均や標本分散が一致しているという特徴がありました。その特徴が維持されているか確認しましょう。例によって、データをN個得たときの対数尤度の微分を計算します。関係ない項は無視しましょう。
$$\begin{eqnarray}
L = -N\ln |\Sigma| -\sum_{i} \frac{1}{2}(x_i-\mu)^{T} \Sigma^{-1} (x_i-\mu )
\end{eqnarray}$$
最尤推定量を計算するためには、ベクトルや行列の微分公式が必要です。行列での微分の結果行列で、以下のように定義します。
$$\begin{eqnarray}
\left\{ \frac{ \partial f(A)}{\partial A} \right\}_{ij} = \frac{ \partial f(A)}{\partial A_{ij} }
\end{eqnarray}$$
計算に必要な微分公式を書いておきます。
$$\begin{eqnarray}
\nabla_{x} x^{T} Ax &=& (A + A^{T} ) x \\
\frac{\partial \log |A|}{\partial A} &=& |A ^{-1} |^{T} \\
\frac{ \partial A^{-1}}{\partial A} &=& -A^{-1} A^{-1} \\
\frac{ \partial x^{T} Ax }{\partial A} &=&x x^{T}
\end{eqnarray}$$
管理人が行列の微分公式を始めて学んだのは、横田先生の位相群論の本2です。リンクを貼っておきます。幾何学に興味がある人は一読してみると良いと思います。
微分の公式と、\( \Sigma \) が対称である事を用いると、対数尤度の微分は以下になります。
$$\begin{eqnarray}
\nabla _{\mu} L &=& \sum_{i} \Sigma ^{-1} (x_i-\mu) \\
\frac{\partial L}{\partial \Sigma} &=& \Sigma^{-1}( I- \Sigma ^{-1}(x – \mu ) (x_i -\mu )^{T} )
\end{eqnarray} $$
最尤推定量は以下になります。
$$\begin{eqnarray}
\hat{\mu} &=& \frac{1}{N} \sum x_i \\
\hat{\Sigma}&=& (x – \mu ) (x -\mu )^{T}
\end{eqnarray} $$
\( \hat{\Sigma} \)は分散共分散行列と呼ばれます。この形の行列は重回帰分析でも出てきました。3
重回帰分析を復習したくなった方は以下の記事をどうぞ。
平均値も分散も、最尤推定すると標本平均や分散となりました。この意味でも、多次元正規分布は正規分布の拡張になっています。
多次元正規分布の不偏推定量
正規分布の場合は平均値は不偏推定量と最尤推定量が一致していましたが、分散は少しずれていました。今回はどうでしょう。不偏推定量?となった方はこちらの記事で復習してみては如何でしょうか。
不偏推定量とは、期待値を取ると、母集団のパラメーターに一致する量でした。つまり、以下の式を満たすという事です。\( p(x|\theta ) \)の\( \theta \) を推定して \( \hat{\theta} \)を得た としましょう。
$$\begin{eqnarray}
E[\hat{\theta} ]=\int \hat{\theta} p(x|\theta ) dx =\theta
\end{eqnarray}$$
最尤推定量が不偏推定量か確かめるためには、計算してみるしかありません。4その為に、以下の公式を使いましょう。計算は書くのが大変なので省略します。ベクトルでの積分は、成分毎で積分するだけです。行列も同じです。
$$\begin{eqnarray}
E[x ]&=& \mu \\
E[x x^{T}] &=& \mu \mu^{T} +\Sigma
\end{eqnarray}$$
これを用いて、不偏推定量になってるか確かめましょう。
$$\begin{eqnarray}
E[\hat{\mu} ] &=& \mu \\
E[\hat{\Sigma}] &=& N \Sigma
\end{eqnarray}$$
多次元正規分布の場合も、平均値は不偏推定量になっていますが、分散は定数倍ずれていました。予測式を作る場合は、\( \hat{\Sigma} /N \)を作っておくと上手くいきます。不偏推定量の話を見ても、多次元正規分布が正規分布の拡張になっている事が分かりました。
多次元正規分布の線形変換は多次元正規分布
多次元正規分布の線形変換は、また多次元正規分布となります。
つまり、\(X \sim \mathcal{N} (\mu , \Sigma ) \)のとき、
$$\begin{eqnarray}
AX+b \sim \mathcal{N} ( A\mu + b, A\Sigma A^T )
\end{eqnarray}$$
です。
これは、簡単な計算で示すことが出来ます。
確率密度関数を考える事で、定数ベクトルを足す場合は明らかだと思います。そこで、
$$\begin{eqnarray}
AX \sim \mathcal{N} ( A\mu , A\Sigma A^T )
\end{eqnarray}$$
だけを示します。
初めに、\(Y=AX \)の変数変換を行った時のヤコビアンは、
$$\begin{eqnarray}
dy_1 \cdots dy_n = \det A dx_1 \cdots dx_n
\end{eqnarray}$$
となります。次に、\(X=A^{-1}Y \)であるので、確率密度関数で考えると、
$$\begin{eqnarray}
f(y ) &=& \frac{1}{ (\sqrt{2\pi } )^n \det A } \exp \left( -\frac{1}{2} (y-A\mu )^T (A \Sigma A ^T)^{-1}(y-A\mu ) \right) \\
&=& \mathcal{N} (y|A\mu , A\Sigma A^T )
\end{eqnarray}$$
となります。これで示せました。
まとめ
- 正規分布の多次元バージョンがある。
- ベクトルや行列での微分がある。
- 推定量も形も正規分布と同じ。
- 最尤推定量と不偏推定量が一致するとは限らない。
- 線形変換しても、多次元正規分布