正規分布の性質

masamue

6年前

正規分布についての基本を解説をします。正規分布の定義式を確認して、確率密度関数になる事を確かめます。大変な計算の入り口である、平均値と分散の計算をします。
大事な性質として、線形変換しても、正規分布同士足し算しても正規分布という性質があります。正規分布は、数学的に自然な形の形になっています。また、中心極限定理(カッコいい!)から平均値が正規分布になることが分かっていたりと、現実でも一番使う、計算に都合のいい分布になっています。(自然な形の意味や中心極限定理は記事にします。)
もっと大変な計算は下の本に載ってます。面白い事が実践的に書いてます。

Amazon.co.jp: 機械学習スタートアップシリーズベイズ推論による機械学習入門 : 須山敦志, 杉山将: 本

正規分布
ガウス積分の公式
正規分布の平均・分散
正規分布の線形変換
正規分布の再生性
モーメント母関数
正規分布の再生性(続)
まとめ

正規分布

(1変数)正規分布の表式について解説します。
正規分布は$ \mu , \sigma $をパラメーターに持つ。1変数関数です。定義は以下のようになっています。
$$\begin{eqnarray}
\mathcal{N}(x| \mu , \sigma) =
\frac{1}{\sqrt{2 \pi \sigma ^2 }} \exp(-\frac{(x-\mu )^2}{2\sigma ^2})
\end{eqnarray}$$
この式が確率密度関数になっているか確かめましょう。$\exp() \times $定数の形で、定数が正の数なので、値は常に0以上です。
次に、積分して1になるか確かめます。積分公式を使えば簡単ですが、以下で導出します。面倒な方は読み飛ばすと良いと思います。使う公式だけ書いておきます。
$$\begin{eqnarray}
I =\int_{-\infty}^{\infty} \exp(-ax^2) dx = \sqrt{ \frac{\pi}{a} }
\end{eqnarray} $$

ガウス積分の公式

正規分布のが確率密度関数であることを確かめるには積分しなくてはなりません。その為に、以下の積分計算をしましょう。
$$\begin{eqnarray}
I =I_x= \int_{-\infty}^{\infty} \exp(-ax^2) dx
\end{eqnarray}$$
この積分はガウス積分と呼ばれています。
$ I^2 =I_x I_y $ を計算して、ルートを取るという方針で行きます。極座標変換というものがありますが、それを使います。以下の式で定義される、x-y座標を円の半径rと角度$ \theta $で位置が決まる座標系に移します。
$$\begin{eqnarray}
x &=& r \cos \theta \\
y &=&r \sin \theta
\end{eqnarray}$$
x,y平面全体の積分 $ \int_{-\infty}^{\infty} dx \int_{-\infty}^{\infty} dy $は、極座標系では $ \int_{0}^{\inf} dr \int_{0}^{2\pi} d\theta $ となります。
ヤコビアンを計算しましょう。¹
$$\begin{eqnarray}
\nabla _{x,y} = J \nabla _{r , \theta}
\end{eqnarray} $$
Jはヤコビ行列と言います。Jの中身は、連鎖律の公式を思い出すと分かります。$x=x(r,\theta ), y=y(r, \theta )$と思いましょう。
$$\begin{eqnarray}
J= \begin{pmatrix}
\frac{\partial x}{\partial r} & \frac{\partial x}{\partial \theta} \\
\frac{\partial y}{\partial r} & \frac{\partial y}{\partial \theta }
\end{pmatrix}
= \begin{pmatrix}
\cos \theta& -r\sin \theta \\
\sin \theta & r \cos \theta
\end{pmatrix}
\end{eqnarray} $$
Jの行列式は rなので、以下のように微小な面積が変換される事が分かります。
$$\begin{eqnarray}
dx dy =r dr d\theta
\end{eqnarray} $$
上の議論を使うと、 $I^2$が計算できます。²
$$\begin{eqnarray}
I^2 = I_x I_y &=& \int \int \exp(-a(x^2 + y^2 )) dx dy
&=&\int_{0}^{\infty} \int_{0}^{2\pi} \exp(-ar^2) rdr d\theta
\end{eqnarray} $$
積分は簡単に実行できて、
$$\begin{eqnarray}
I^2 &=& \frac{\pi}{a} \\
I &=& \sqrt{ \frac{\pi}{a} }
\end{eqnarray} $$
です。この公式を正規分布の式で使うと、積分の値が1になることが分かります。

正規分布の平均・分散

確率密度関数$ p(x) $の平均や分散は、期待値を使って定義されます。p(x)の、関数f(x)についての期待値 $ E[f(x)]_{p(x)} $ は、以下のように定義されます。期待値を使って、平均値$\mu $や、分散$ V[x] $ も定義しましょう。

$$\begin{eqnarray}
E [f(x)]_{p(x)} &=& \int p(x) f(x) dx \\
\mu &=& E[x]_{p(x)} \\
V[x] &=& E[(x- \mu)^2]_{p(x)}
\end{eqnarray} $$

正規分布$p(x)=\mathcal{N}(x|\mu , \sigma^2) $ の平均と分散を計算してみましょう。計算が必要なのは、以下の2つの積分計算です。
$$\begin{eqnarray}
I_1 &=& \int x \exp(-a(x-\mu ))^2) dx \\
I_2 &=& \int x^2 \exp(-a x) ^2) dx
\end{eqnarray} $$
$ I_1 $については、$ y=x-\mu $と変数変換すると良いです。
$$\begin{eqnarray}
I_1 = \int \exp(-ay^2) dy + \mu \int \exp(-ay^2) dy
\end{eqnarray} $$
正規分布の平均値の計算だと思って$I_1 $を眺めると、一項目は奇関数の積分なので0です。二項目は正規分布の積分なので1になり、結局
$$\begin{eqnarray}
E[x]_{p(x)} = \mu
\end{eqnarray} $$
となります。正規分布のパラメーター$\mu $ が平均値になりました。
$ V[x] = E[(x- \mu)^2]_{p(x)} = E[x^2] – (E[x])^2 $　注意しましょう。$E[x^2] $の部分に$I_2$ が出てきます。$ I_2 $の計算は部分積分を使って
$$\begin{eqnarray}
I_2 =\frac{1}{2a} \int \exp(-ax^2) dx
\end{eqnarray} $$
となることが分かります。$x^2 = (x-\mu)^2 +2\mu x -\mu ^2 $と変形することで、$ I_2 $に近い形を作ります。
$$\begin{eqnarray}
E[x^2] &=& \frac{1}{\sqrt{2\pi \sigma ^2}}
\int (x-\mu)^2 + 2 \mu x- \mu^2) \exp(-\frac{(x-\mu)^2} {2\sigma ^2}) dx \\
&=&\sigma ^2 +2\mu ^2 -\mu^2
\end{eqnarray} $$
が分かります。これから、分散は
$$\begin{eqnarray}
V[X] = \sigma ^2
\end{eqnarray} $$
となることが分かりました。

正規分布の線形変換

基本的に確率変数に何かをするのは怖いものです。何故なら確率密度関数は基本的に複雑なので、ちょっとした変化で恐ろしい計算を強いてくるからです。計算は最悪頑張れば良いですが、意味不明な関数の形になってしまうと、何かの予測には使えません。一方で、正規分布は、以下の特性もっています。

$ p(X)=\mathcal{N}(X| \mu , \sigma ^2 ) , Y=aX+b $とする。正規分布に従う確率変数の線形変換は正規分布に従う。
$$\begin{align}
p(Y) =\mathcal{N} (X |a\mu +b, (a\sigma )^2 )
\end{align} $$

計算するだけですが、やってみましょう。
$$\begin{eqnarray}
P(Y)&=&\frac{dX}{dY}P(\frac{Y-b}{a}) \\
&=& \frac{1}{a} \big(-\frac{1}{\sqrt{2 \pi \sigma^2} }
\exp( -\frac{ (\frac{Y-b}{a} -\mu)^2}{2\sigma^2 } )\big) \\
&=& -\frac{1} {\sqrt{2 \pi (a \sigma )^2 }} \exp( -\frac{ (X-(a\mu +b))^2}{2(a\sigma )^2}) \\
&=& \mathcal{N} (X|a\mu +b , (a\sigma )^2 )
\end{eqnarray}$$
これで、正規分布は線形変換しても正規分布をのままであることが分かりました。
正規分布を $ (x-\mu )\ sigma $ と変数変換すると、$ \mathcal{N}(x|0,1) $となります。この正規分布は標準正規分布と呼ばれています。

正規分布の再生性

先ほどは、確率変数に定数をかけたり足したりしたので、そんなに大変ではありませんでした。確率変数同士を足してみましょう。単純には出来ないような気がします。正規分布は、再生性という性質を持っています。

$ p(x) =\mathcal{N}(x|\mu _1 , \sigma _1 ^2 ), p(y)= \mathcal{N}(y|\mu _2 , \sigma _2 ^2 ) $とするとき、以下が成り立つ。
$$\begin{align}
p(x+y) = \mathcal{N}(x|\mu _1 +\mu _2 , \sigma _1 ^2 +\sigma _2 ^2)
\end{align}$$

このことを説明するのは、具体的に計算計算するか、モーメントを使う方法があります。計算は書くのが大変なので、計算するべき式だけ書いておこうと思います。計算するべき式を導出するためにも、少し考える必要があります。
$$\begin{align}
p_{X+Y}(Z) = \int_{t} p_X (t) p_X(Z-t) dt
\end{align}$$
上の式を計算すると、正規分布の式になることが分かります。以下のサイトに詳しい説明があるので参考に出来ます。また、上の積分式は、畳み込みと呼ばれ、二つの関数を合成するときにはしょっちゅう出てきます。(身近な所では、フーリエ変換を思い出したりググってみてください。)

和に関する正規分布の再生性の証明 - 理数アラカルト -

正規分布に従う確率変数の和もまた正規分布に従うという和に関する正規分布の再生性を証明するページです。

計算は書くのが大変なので、今回の記事ではモーメント母関数を導入して説明したいと思います。面倒な人は、次の章を飛ばして、モーメント母関数といものがあって、それが確率をきめてしまうんだなぁくらいに思ってください。

モーメント母関数

物理でもモーメント³は聞いた事があると思います。座標を取って質点がある座標と重量を掛けて足したり、質量分布が与えられて積分する奴です。そのとき、原点の周りのモーメントと言ったりしていました。数学で良くある一般化の方法として、式の字数を上げるというのがあります。例えば、原点周りの2次のモーメントは以下の式です。
$$\begin{align}
\int x^2 p(x) dx
\end{align} $$
この観点で行くと、分散は平均の周りの２次のモーメントということになります。
$$\begin{align}
V[x] = \int( x-\mu )^2 p(x) dx
\end{align} $$
平均も分散も、正規分布を決めるうえでは非常に重要な量でした。平均が確率の山の位置を表し、分散は裾野の広がりを表しています。正規分布に至っては、2次のモーメントまでで、完全に確率の形が分かってしまいます。このような事情から、モーメントは大事な量であることが窺い知れると思います。
3次,4次,…の平均値回りのモーメントには意味があるのでしょうか。3次のモーメントは歪度、4次のモーメントは尖度と呼ばれ、データ解析では重要な量になっています。
歪度は、山の位置が平均値と比べてどのくらいずれているかを表します。尖度は、山の鋭さを表します。回帰分析など、大事な手法は誤差関数や、パラメーターが正規分布によっているという仮定の下組み立てられているので、正規分布からかけ離れたた分布には力を発揮できないことがあります。
モーメントが重要なものであることは伝わったかと思います。以下のように言葉を定義しましょう。

$$\begin{align}
\mu _r = E[x^r ]
\end{align} $$
をxの原点周りのr次モーメントという。
$$\begin{align}
\alpha _r = E[ \left( \frac{x- E[x]}{\sqrt{V[X] } } \right) ^r ]
\end{align} $$
をxの標準化 ⁴モーメントという。
$$\begin{align}
M_x (t) =E[e^{tx} ]
\end{align} $$
をモーメント母関数と言います。

もちろん、積分が収束しなくて、定義できない場合があります。物理でも母関数は聞いたことがあると思います。ラグランジアンもハミルトニアンも作れますよみたいな奴とかです。母という字が使われているように、欲しい関数達がすべて母関数から産まれてきます。それを説明してみましょう。
$$\begin{align}
\exp(tx) = \sum \frac{ (tx)^n }{ n!}
\end{align} $$
である事を思い出しましょう。この式で両辺の期待値を取りましょう。
$$\begin{align}
M_x (t) =E[e^{tx} ] = \sum E[ x^n ] \frac{ t^n}{ n!}
\end{align} $$
となります。r回微分して、t=0 と置くと、r次の原点周りのモーメントです。
$$\begin{align}
\frac{d^r}{dx^r} M_x (0) = \mu _r
\end{align} $$
初等関数で書けていれば、微分は積分より計算しやすいので、$ M_x (t) $さえ知ってしまえば、全てのモーメントを知ることが出来ます。⁵
$p(x) =\mathcal{N}(x|\mu, \sigma ^2) $の場合を考えましょう。
$$\begin{align}
M_x (t) = \exp( \mu t +\frac{1}{2} \sigma ^2 t^2 )
\end{align} $$
となります。この結果が示している大事なことは、3次以降のモーメントが0になるという事です。(計算練習として、3,4回微分してみてください。)正規分布を基準に考えると、歪度(3次のモーメント)=0というのは、山の位置と平均値の位置が一致するという事です。尖度(4次)に関しては、山の場所に、どれだけデータが集まっているかの指標になります。

正規分布の再生性(続)

モーメント母関数を用いて。正規分布の再現性を確かめましょう。 $ p(x) =\mathcal{N}(x|\mu _1 , \sigma _1 ^2 ), p(y)= \mathcal{N}(y|\mu _2 , \sigma _2 ^2 ) $ とすると、
$$\begin{eqnarray}
M_{x+y} (t) &=&E[e^{t(x+y)} ] \\
&=& E[e^{tx} ]*E[e^{ty} ] \\
&=& \exp( (\mu _1 + \mu _2) t +\frac{1}{2} (\sigma_1 ^2 + \sigma_2 ^2 ) t^2 )
\end{eqnarray}$$
です。これは、 $ p(x+y) = \mathcal{N}(x|\mu _1 +\mu _2 , \sigma _1 ^2 +\sigma _2 ^2) $を表しています。
必要な知識はその都度補っているので、まとまった形で読みたい人は以下の文献がおすすめです。

統計学入門 (基礎統計学Ⅰ) | 東京大学教養学部統計学教室 |本 | 通販 | Amazon

Amazonで東京大学教養学部統計学教室の統計学入門 (基礎統計学Ⅰ)。アマゾンならポイント還元本が多数。東京大学教養学部統計学教室作品ほか、お急ぎ便対象商品は当日お届けも可能。また統計学入門 (基礎統計学Ⅰ)もアマゾン配送商品なら通常配送無料。

まとめ

・正規分布は確率密度関数。
・正規分布では、パラメーター$ \mu , \sigma $がそのまま平均値、分散となる。
・正規分布は、線形変換しても正規分布
・正規分布に従う確率変数を足しても、また正規分布

以下の式で定義される行列の行列式がヤコビアンです。
$x^2 +y^2 = r^2$に注意です。
平均値の定義を思い出しましょう。
\begin{eqnarray}
\mu = \int x p(x) dx
\end{eqnarray}
p(x)を質量分布と思えば、これは物理でいうモーメントの事です。
標準化というのは、正規分布の確率変数を上の式のように変数変換すると、標準正規分布$ \mathcal{N} (x|0,1) $に従う事から来ています。
物理でモーメント母関数を使う事で面白い事が分かる話を知っている人がいたら教えてください。