サイトアイコン マサムネの部屋

カイ二乗分布とt分布の関係が理解できる記事

統計学

カイ二乗分布は、正規分布があれば出てくる大事な統計量ですが、平均と分散の正確な値が分かっている必要があります。
例えば、分散が分からない時は、標本分散で代用するしかありません。そのような場合は、t分布という良く知られた分布が登場します。それについて解説します。
一応、参考文献は以下の本です。

Amazon.co.jp
スポンサーリンク

カイ二乗分布

初めにカイ二乗分布についておさらいします。以下の記事に丁寧に書いてるので、良く分からない人は初めに読んでみてください。

カイ二乗分布が自然に理解できる記事
カイ二乗分布についての解説記事です。ガンマ分布の一つとして定式化し、標準正規分布や、そ分散からカイ二乗分布が出てくることを計算付きで解説します。

カイ二乗分布は、ガンマ分布の特別な場合でした。
$$\begin{eqnarray}
\chi _{n}^2 = {\rm Gam}(n/2 , 2 )
\end{eqnarray}$$
また、標準正規分布に従う独立な確率変数からも得られます。
$$\begin{eqnarray}
Z_1 , \cdots , Z_n &\sim & \mathcal{N} (0,1 ) \\
Z^2&\sim& \chi _{1} ^2 \\
Z_1 ^2 + \cdots + Z_n ^2 &\sim &\chi _{n-1} ^2
\end{eqnarray}$$
正規分布は、標準正規分布に従うように変数変換できたことを思い出すと、正規分布があれば、カイ二乗分布が出てくるわけです。
$$\begin{eqnarray}
X_1 , \cdots , X_n &\sim & \mathcal{N} (\mu,\sigma ^2 ) \\
Z=(X-\mu)/\sigma &\sim& \mathcal{N} (0,1 ) \\
Z’ =( \sqrt{n} \bar{X} -\mu ) /\sigma &\sim& \mathcal{N} (0,1 )
\end{eqnarray}$$
正規分布を標準正規分布に変換するときに、真の分散が分かっている事は極まれでしょう。標準正規分布に変換する際に、分散を標本分散で置き換えた量\(T \)が従う確率分布を求めたい所です。
$$\begin{eqnarray}
X_1 , \cdots , X_n &\sim & \mathcal{N} (\mu,\sigma ^2 ) \\
V^2 &=& \sum \frac{ (X-\bar{X} )^2}{n-1}\\
T &=& ( \sqrt{n} \bar{X} -\mu ) /V
\end{eqnarray}$$
上の\(T \)が従う分布の事を自由度n-1の\( t \)分布 といいます。

t分布

正規分布が与えられればt分布が得られるという事は分かりましたが、折角カイ二乗分布を知っているので、定義に登場させます。
$$\begin{eqnarray}
X_1 , \cdots , X_n &\sim & \mathcal{N} (\mu,\sigma ^2 ) \\
U=(n-1)\frac{V^2}{\sigma} &\sim& \chi _{n-1} ^2 \\
Z=\frac{ \sqrt{n} \bar{X} -\mu }{\sigma} &\sim &\mathcal{N}(0,1)
\end{eqnarray}$$
だったことを思い出しましょう。
$$\begin{eqnarray}
T &=& ( \sqrt{n} \bar{X} -\mu ) /V \\
&=& Z / \sqrt{ U(n-1) }
\end{eqnarray}$$
と計算出来ます。これを踏まえて、以下のように定義を拡張します。

[t分布]
自由度m のカイ二乗分布に従う確率変数U と、標準正規分布に従う確率変数Zがあって、それぞれ独立とする。
$$\begin{eqnarray}
T =Z / \sqrt{U/m }
\end{eqnarray}$$
を考えたとき、Tが従う確率分布を、自由度mのt分布と呼び、 \(t_m \)で表す。

自由度を変化させて、t分布を描いてみましょう。

自由度毎のt分布

mが大きくなるにつれて、一つの分布に収束しているように見えます。元々、標準正規分布を得るのと似た操作で得た分布なので、標準正規分布に収束している気がします。そのことを示すために、t分布の具体的な表式を求めます。

具体的な表式を求めるのは力づくの計算で出来ます。やってみましょう。
初めに、自由度mのカイ二乗分布と標準正規分布は以下の式で与えられました。
$$\begin{eqnarray}
f(z)&=& \frac{1}{\sqrt{2 \pi}} e^{-z^2 /2} \\
f(u)&=& \frac{1}{\Gamma (m/2 )} \frac{1}{2^{m/2}} u^{m/2 -1 } e^{-u /2 }
\end{eqnarray}$$
\(U,Z \)は独立なので、同時確率分布は、積に分解します。
$$\begin{eqnarray}
f(z,u) &=& f(z) f(u) \\
&=& \frac{1}{\sqrt{\pi}} \frac{1}{\Gamma (m/2 )} \frac{1}{2^{(m+1)/2}} u^{m/2 -1 } e^{-(z^2 +u )/2 }
\end{eqnarray}$$
\(T=Z/\sqrt{U/m } \)で与えられるので、\(t= z/\sqrt{u/m} , w=u \)と変数変換しましょう。
この変数変換で出来上がる関数\(f (t,w ) \)をwで積分すれば1、求めたい確率分布になります。
$$\begin{eqnarray}
f(z,u) & \mapsto & f(t,w ) \\
t_m = f(t) &=& \int_0 ^{\infty} f(t,w) dw
\end{eqnarray}$$
これから行う必要があるのは、ヤコビアンの計算、\(f(z,u) \)の\(t,w \)による表示と、積分の実行です。

初めに、ヤコビアンを求めましょう。
$$\begin{eqnarray}
dt dw &=&\det
\left( \begin{array}{cc}
\frac{\partial t}{\partial z} & \frac{\partial t}{\partial u} \\
\frac{\partial w}{\partial z}& \frac{\partial w}{\partial u} \\
\end{array} \right)
dz du \\
&=&
\det
\left( \begin{array}{cc}
\sqrt{w/m} & t/(2\sqrt{mw} )\\
0 &1 \\
\end{array} \right)
dz du \\
&=& \sqrt{w/m} dz du
\end{eqnarray}$$
次に、ヤコビアンを使って\(f(z,u) \)を書き直します。
$$\begin{eqnarray}
f(t,w) = \frac{1}{\sqrt{m\pi } } \frac{1}{\Gamma (m/2 )} \frac{1}{2^{(m+1)/2}}
w^{m/2 -1 } e^{-(t^2 /m +1)w /2 }
\end{eqnarray}$$
最後に、積分を実行します。積分に関係のある所を\(I(t) \)と置きましょう。
$$\begin{eqnarray}
I(t) = \int_{0}^{\infty} w^{m/2 -1 } e^{-(t^2 /m +1)w /2 } dw
\end{eqnarray}$$
このように置くことで、\(T \)の従う確率分布は以下のように書けます。
$$\begin{eqnarray}
f(t) = \frac{1}{\sqrt{m\pi } } \frac{1}{\Gamma (m/2 )} \frac{1}{2^{(m+1)/2}} I(t)
\end{eqnarray}$$
\(I(t ) \)を計算しましょう。\(I(t) \)とガンマ関数が似ている事に注目します。2
$$\begin{eqnarray}
\Gamma (t)= \int_{0} ^{\infty} y^{t-1} e^{-t} dy
\end{eqnarray}$$
ガンマ関数を出すために、
$$\begin{eqnarray}
x&=& (t^2 /m +1 )w/2 \\
dx/dw &=& (t^2 /m +1 )/2
\end{eqnarray}$$
と置いて、積分の中身を計算します。
$$\begin{eqnarray}
I(t) &=& \frac{1}{ ((t^2 /m +1)/2 )^{(m+1 )/2 }} \int_{0} ^{\infty} x^{ (m+1)/2-1} e^{-t} dx \\
&=& \frac{1}{ (( t^2 /m +1)/2 )^{(m+1 )/2 }} \Gamma ((m+1)/2 )
\end{eqnarray}$$
以上をまとめて、
$$\begin{eqnarray}
f(t) = \frac{1}{\sqrt{\pi } } \frac{\Gamma ((m+1)/2 )}{\sqrt{m} \Gamma (m/2 ) }
( t^2 /m +1)^{-(m+1)/2}
\end{eqnarray}$$
となります。この表式込みで、t分布の定義を再渇しておきます。

[t分布]
自由度m のカイ二乗分布に従う確率変数U と、標準正規分布に従う確率変数Zが独立とする。
$$\begin{eqnarray}
T =Z / \sqrt{U/m }
\end{eqnarray}$$
を考えたとき、Tが従う確率分布を、自由度mのt分布と呼び、 \(t_m \)で表す。自由度mのt分布は、以下の式で表される。
$$\begin{eqnarray}
f(t) = \frac{1}{\sqrt{\pi } } \frac{\Gamma ((m+1)/2 )}{\sqrt{m} \Gamma (m/2 ) }
( t^2 /m +1)^{-(m+1)/2}
\end{eqnarray}$$

t分布の性質

t分布の元々の定義は、標準正規分布を作る時に、真の分散でなくて標本(不偏)分散を使う、というものでした。
所で、標本(不偏)分散の期待値は真の分散に一致したことを思い起こすと、サンプルを沢山とれば、3 t分布は標準正規分布に従う事が期待されます。つまり、
$$\begin{eqnarray}
t_m \xrightarrow{m \rightarrow \infty } \mathcal{N}(0,1)
\end{eqnarray}$$
となる気がします。グラフを描いてみると、確かにそうなっているように見えます。4

t分布が標準正規分布に収束する様子

実際、上の主張は正しい事が分かります。以下で証明してみましょう。

\(
t_m \xrightarrow{m \rightarrow \infty } \mathcal{N}(0,1)
\) の証明

\( k=m/2 \)と置くと、\(t_m \)は次のようになります。
$$\begin{eqnarray}
f(t) = \frac{1}{\sqrt{2\pi } } \frac{\Gamma ((k+1/2 )}{\sqrt{k} \Gamma (k) }
(1+ \frac{t^2 }{2} \frac{1}{k} )^{-k-1/2 }
\end{eqnarray}$$
この表式で、\( k \rightarrow \infty \)の極限を考えます。
2項目は、\( \Gamma (t ) \)のtの大きい所では、\( \Gamma (t+a ) \sim t^a \Gamma (t) \)となる事5から、1に収束します。
3項目は、\(e^t \)の定義から、\(e^{-t^2 /2 }\) に収束します。よって、
$$\begin{eqnarray}
\lim_{k \rightarrow \infty} f(t)= \frac{1}{\sqrt{2\pi } } e^{-t^2 /2 } =\mathcal{N} (0,1)
\end{eqnarray}$$
となります。


t分布が主に使われるのはt検定です。分散が等しいと仮定できそうな2つのデータに対して、平均値が等しいかどうかを調べる事が出来ます。

t検定

考える問題は以下のようなものです。

[t検定で扱う問題]

\(X_1 , \cdots , X_m \sim \mathcal{N} (\mu _1,\sigma ^2 ), Y_1 , \cdots ,Y_n \sim \mathcal{N} (\mu _2 , \sigma ^2 ) \)がある時、\( \mu _1 = \mu _2 \)か?

二つのデータを合わせて分散を推定すると、
$$\begin{eqnarray}
\hat{\sigma }^2 = \frac{1}{m+n-2} \left( \sum^m (X_i -\bar{X} )^2 + \sum^n (Y_j -\bar{Y} )^2 \right)
\end{eqnarray}$$
であり、この量からカイ二乗分布が出て来ます。
$$\begin{eqnarray}
(m+n-2) \hat{\sigma }^2 /\sigma ^2 \sim \chi _{m+n-2} ^2
\end{eqnarray}$$
仮に、\( \mu _1 = \mu _2 \)だとすると、以下が成り立ちます。
$$\begin{eqnarray}
\bar{X} -\bar{Y} \sim \mathcal{N} \left( 0, \sigma ^2 \left( \frac{1}{m} +\frac{1}{n} \right) \right)
\end{eqnarray}$$
上の二つの確率変数から、t分布が作れます。6
$$\begin{eqnarray}
T&=& \frac{ (\bar{X} -\bar{Y} )\sqrt{mn} /( \sigma \sqrt{m+n} )} { \sqrt{ \hat{\sigma ^2 } / \sigma ^2 }}\sim \frac{\mathcal{N}(0,1)}{ \sqrt{\chi_{m+n-2} ^2 /(m+n-2) } } \\
&\sim & t_{m+n-2}
\end{eqnarray}$$
これから、有意水準αを決めておいて、αと対応する値\(t_{m+n-2 , \alpha} \)よりも\(T \)が大きい時、\( \mu _1 \neq \mu _2 \)と判断するわけです。

まとめ

  1. uはカイ二乗分布に従うので、積分範囲は0から\( + \infty \)までです。
  2. 元々ガンマ分布がいたので、ガンマ関数が出てくると勘ぐってしまいますよね。
  3. 自由度mを大きくすれば
  4. グラフから、 mが大きくなると、頂点は大きな値に、裾野の値は小さくなっていくことが分かります。
  5. スターリングの公式です。
  6. カイ二乗分布の記事で、\(\bar{X} , \bar{Y} , \hat{\sigma ^2 } \)が独立だという事を示しています。