カイ二乗分布とt分布の関係が理解できる記事

masamue

6年前

カイ二乗分布は、正規分布があれば出てくる大事な統計量ですが、平均と分散の正確な値が分かっている必要があります。
例えば、分散が分からない時は、標本分散で代用するしかありません。そのような場合は、t分布という良く知られた分布が登場します。それについて解説します。
一応、参考文献は以下の本です。

https://amzn.to/3c7wp1r

カイ二乗分布
t分布
t分布の性質
t検定
まとめ

カイ二乗分布

初めにカイ二乗分布についておさらいします。以下の記事に丁寧に書いてるので、良く分からない人は初めに読んでみてください。

カイ二乗分布が自然に理解できる記事

カイ二乗分布についての解説記事です。ガンマ分布の一つとして定式化し、標準正規分布や、そ分散からカイ二乗分布が出てくることを計算付きで解説します。

カイ二乗分布は、ガンマ分布の特別な場合でした。
$$\begin{eqnarray}
\chi _{n}^2 = {\rm Gam}(n/2 , 2 )
\end{eqnarray}$$
また、標準正規分布に従う独立な確率変数からも得られます。
$$\begin{eqnarray}
Z_1 , \cdots , Z_n &\sim & \mathcal{N} (0,1 ) \\
Z^2&\sim& \chi _{1} ^2 \\
Z_1 ^2 + \cdots + Z_n ^2 &\sim &\chi _{n-1} ^2
\end{eqnarray}$$
正規分布は、標準正規分布に従うように変数変換できたことを思い出すと、正規分布があれば、カイ二乗分布が出てくるわけです。
$$\begin{eqnarray}
X_1 , \cdots , X_n &\sim & \mathcal{N} (\mu,\sigma ^2 ) \\
Z=(X-\mu)/\sigma &\sim& \mathcal{N} (0,1 ) \\
Z’ =( \sqrt{n} \bar{X} -\mu ) /\sigma &\sim& \mathcal{N} (0,1 )
\end{eqnarray}$$
正規分布を標準正規分布に変換するときに、真の分散が分かっている事は極まれでしょう。標準正規分布に変換する際に、分散を標本分散で置き換えた量$T $が従う確率分布を求めたい所です。
$$\begin{eqnarray}
X_1 , \cdots , X_n &\sim & \mathcal{N} (\mu,\sigma ^2 ) \\
V^2 &=& \sum \frac{ (X-\bar{X} )^2}{n-1}\\
T &=& ( \sqrt{n} \bar{X} -\mu ) /V
\end{eqnarray}$$
上の$T $が従う分布の事を自由度n-1の$ t $分布 といいます。

t分布

正規分布が与えられればt分布が得られるという事は分かりましたが、折角カイ二乗分布を知っているので、定義に登場させます。
$$\begin{eqnarray}
X_1 , \cdots , X_n &\sim & \mathcal{N} (\mu,\sigma ^2 ) \\
U=(n-1)\frac{V^2}{\sigma} &\sim& \chi _{n-1} ^2 \\
Z=\frac{ \sqrt{n} \bar{X} -\mu }{\sigma} &\sim &\mathcal{N}(0,1)
\end{eqnarray}$$
だったことを思い出しましょう。
$$\begin{eqnarray}
T &=& ( \sqrt{n} \bar{X} -\mu ) /V \\
&=& Z / \sqrt{ U(n-1) }
\end{eqnarray}$$
と計算出来ます。これを踏まえて、以下のように定義を拡張します。

[t分布]
自由度m のカイ二乗分布に従う確率変数U と、標準正規分布に従う確率変数Zがあって、それぞれ独立とする。
$$\begin{eqnarray}
T =Z / \sqrt{U/m }
\end{eqnarray}$$
を考えたとき、Tが従う確率分布を、自由度mのt分布と呼び、 $t_m $で表す。

自由度を変化させて、t分布を描いてみましょう。

mが大きくなるにつれて、一つの分布に収束しているように見えます。元々、標準正規分布を得るのと似た操作で得た分布なので、標準正規分布に収束している気がします。そのことを示すために、t分布の具体的な表式を求めます。

具体的な表式を求めるのは力づくの計算で出来ます。やってみましょう。
初めに、自由度mのカイ二乗分布と標準正規分布は以下の式で与えられました。
$$\begin{eqnarray}
f(z)&=& \frac{1}{\sqrt{2 \pi}} e^{-z^2 /2} \\
f(u)&=& \frac{1}{\Gamma (m/2 )} \frac{1}{2^{m/2}} u^{m/2 -1 } e^{-u /2 }
\end{eqnarray}$$
$U,Z $は独立なので、同時確率分布は、積に分解します。
$$\begin{eqnarray}
f(z,u) &=& f(z) f(u) \\
&=& \frac{1}{\sqrt{\pi}} \frac{1}{\Gamma (m/2 )} \frac{1}{2^{(m+1)/2}} u^{m/2 -1 } e^{-(z^2 +u )/2 }
\end{eqnarray}$$
$T=Z/\sqrt{U/m } $で与えられるので、$t= z/\sqrt{u/m} , w=u $と変数変換しましょう。
この変数変換で出来上がる関数$f (t,w ) $をwで積分すれば¹、求めたい確率分布になります。
$$\begin{eqnarray}
f(z,u) & \mapsto & f(t,w ) \\
t_m = f(t) &=& \int_0 ^{\infty} f(t,w) dw
\end{eqnarray}$$
これから行う必要があるのは、ヤコビアンの計算、$f(z,u) $の$t,w $による表示と、積分の実行です。

初めに、ヤコビアンを求めましょう。
$$\begin{eqnarray}
dt dw &=&\det
\left( \begin{array}{cc}
\frac{\partial t}{\partial z} & \frac{\partial t}{\partial u} \\
\frac{\partial w}{\partial z}& \frac{\partial w}{\partial u} \\
\end{array} \right)
dz du \\
&=&
\det
\left( \begin{array}{cc}
\sqrt{w/m} & t/(2\sqrt{mw} )\\
0 &1 \\
\end{array} \right)
dz du \\
&=& \sqrt{w/m} dz du
\end{eqnarray}$$
次に、ヤコビアンを使って$f(z,u) $を書き直します。
$$\begin{eqnarray}
f(t,w) = \frac{1}{\sqrt{m\pi } } \frac{1}{\Gamma (m/2 )} \frac{1}{2^{(m+1)/2}}
w^{m/2 -1 } e^{-(t^2 /m +1)w /2 }
\end{eqnarray}$$
最後に、積分を実行します。積分に関係のある所を$I(t) $と置きましょう。
$$\begin{eqnarray}
I(t) = \int_{0}^{\infty} w^{m/2 -1 } e^{-(t^2 /m +1)w /2 } dw
\end{eqnarray}$$
このように置くことで、$T $の従う確率分布は以下のように書けます。
$$\begin{eqnarray}
f(t) = \frac{1}{\sqrt{m\pi } } \frac{1}{\Gamma (m/2 )} \frac{1}{2^{(m+1)/2}} I(t)
\end{eqnarray}$$
$I(t ) $を計算しましょう。$I(t) $とガンマ関数が似ている事に注目します。²
$$\begin{eqnarray}
\Gamma (t)= \int_{0} ^{\infty} y^{t-1} e^{-t} dy
\end{eqnarray}$$
ガンマ関数を出すために、
$$\begin{eqnarray}
x&=& (t^2 /m +1 )w/2 \\
dx/dw &=& (t^2 /m +1 )/2
\end{eqnarray}$$
と置いて、積分の中身を計算します。
$$\begin{eqnarray}
I(t) &=& \frac{1}{ ((t^2 /m +1)/2 )^{(m+1 )/2 }} \int_{0} ^{\infty} x^{ (m+1)/2-1} e^{-t} dx \\
&=& \frac{1}{ (( t^2 /m +1)/2 )^{(m+1 )/2 }} \Gamma ((m+1)/2 )
\end{eqnarray}$$
以上をまとめて、
$$\begin{eqnarray}
f(t) = \frac{1}{\sqrt{\pi } } \frac{\Gamma ((m+1)/2 )}{\sqrt{m} \Gamma (m/2 ) }
( t^2 /m +1)^{-(m+1)/2}
\end{eqnarray}$$
となります。この表式込みで、t分布の定義を再渇しておきます。

[t分布]
自由度m のカイ二乗分布に従う確率変数U と、標準正規分布に従う確率変数Zが独立とする。
$$\begin{eqnarray}
T =Z / \sqrt{U/m }
\end{eqnarray}$$
を考えたとき、Tが従う確率分布を、自由度mのt分布と呼び、 $t_m $で表す。自由度mのt分布は、以下の式で表される。
$$\begin{eqnarray}
f(t) = \frac{1}{\sqrt{\pi } } \frac{\Gamma ((m+1)/2 )}{\sqrt{m} \Gamma (m/2 ) }
( t^2 /m +1)^{-(m+1)/2}
\end{eqnarray}$$

t分布の性質

t分布の元々の定義は、標準正規分布を作る時に、真の分散でなくて標本(不偏)分散を使う、というものでした。
所で、標本(不偏)分散の期待値は真の分散に一致したことを思い起こすと、サンプルを沢山とれば、³ t分布は標準正規分布に従う事が期待されます。つまり、
$$\begin{eqnarray}
t_m \xrightarrow{m \rightarrow \infty } \mathcal{N}(0,1)
\end{eqnarray}$$
となる気がします。グラフを描いてみると、確かにそうなっているように見えます。⁴

実際、上の主張は正しい事が分かります。以下で証明してみましょう。

$
t_m \xrightarrow{m \rightarrow \infty } \mathcal{N}(0,1)
$ の証明
$ k=m/2 $と置くと、$t_m $は次のようになります。
$$\begin{eqnarray}
f(t) = \frac{1}{\sqrt{2\pi } } \frac{\Gamma ((k+1/2 )}{\sqrt{k} \Gamma (k) }
(1+ \frac{t^2 }{2} \frac{1}{k} )^{-k-1/2 }
\end{eqnarray}$$
この表式で、$ k \rightarrow \infty $の極限を考えます。
2項目は、$ \Gamma (t ) $のtの大きい所では、$ \Gamma (t+a ) \sim t^a \Gamma (t) $となる事⁵から、1に収束します。
3項目は、$e^t $の定義から、$e^{-t^2 /2 }$ に収束します。よって、
$$\begin{eqnarray}
\lim_{k \rightarrow \infty} f(t)= \frac{1}{\sqrt{2\pi } } e^{-t^2 /2 } =\mathcal{N} (0,1)
\end{eqnarray}$$
となります。

t分布が主に使われるのはt検定です。分散が等しいと仮定できそうな2つのデータに対して、平均値が等しいかどうかを調べる事が出来ます。

t検定

考える問題は以下のようなものです。

[t検定で扱う問題]

$X_1 , \cdots , X_m \sim \mathcal{N} (\mu _1,\sigma ^2 ), Y_1 , \cdots ,Y_n \sim \mathcal{N} (\mu _2 , \sigma ^2 ) $がある時、$ \mu _1 = \mu _2 $か？

二つのデータを合わせて分散を推定すると、
$$\begin{eqnarray}
\hat{\sigma }^2 = \frac{1}{m+n-2} \left( \sum^m (X_i -\bar{X} )^2 + \sum^n (Y_j -\bar{Y} )^2 \right)
\end{eqnarray}$$
であり、この量からカイ二乗分布が出て来ます。
$$\begin{eqnarray}
(m+n-2) \hat{\sigma }^2 /\sigma ^2 \sim \chi _{m+n-2} ^2
\end{eqnarray}$$
仮に、$ \mu _1 = \mu _2 $だとすると、以下が成り立ちます。
$$\begin{eqnarray}
\bar{X} -\bar{Y} \sim \mathcal{N} \left( 0, \sigma ^2 \left( \frac{1}{m} +\frac{1}{n} \right) \right)
\end{eqnarray}$$
上の二つの確率変数から、t分布が作れます。⁶
$$\begin{eqnarray}
T&=& \frac{ (\bar{X} -\bar{Y} )\sqrt{mn} /( \sigma \sqrt{m+n} )} { \sqrt{ \hat{\sigma ^2 } / \sigma ^2 }}\sim \frac{\mathcal{N}(0,1)}{ \sqrt{\chi_{m+n-2} ^2 /(m+n-2) } } \\
&\sim & t_{m+n-2}
\end{eqnarray}$$
これから、有意水準αを決めておいて、αと対応する値$t_{m+n-2 , \alpha} $よりも$T $が大きい時、$ \mu _1 \neq \mu _2 $と判断するわけです。

まとめ

カイ二乗分布のおさらいをした
t分布の定義をした
t分布の表式を求めた
t分布が標準正規分布に収束する事を確かめた
t検定の原理を確かめた

uはカイ二乗分布に従うので、積分範囲は0から$ + \infty $までです。
元々ガンマ分布がいたので、ガンマ関数が出てくると勘ぐってしまいますよね。
自由度mを大きくすれば
グラフから、 mが大きくなると、頂点は大きな値に、裾野の値は小さくなっていくことが分かります。
スターリングの公式です。
カイ二乗分布の記事で、$\bar{X} , \bar{Y} , \hat{\sigma ^2 } $が独立だという事を示しています。