統計学で出てくる確率論の用語の解説

統計学を勉強していると、確率密度(質量)関数や、確率分布、確率変数と言った言葉が出現します。それらの定義や意味をまとめています。辞書みたいに使って欲しいと思います。

確率の定義
確率変数と累積分布関数
累積分布関数と確率(質量)密度関数
1. 確率密度関数みたいなものが大体0になることの補足
確率密度関数から確率が生まれる話
まとめ

確率の定義

確率は測度と可測関数の組の特別な場合です。初めに、測度や可測という概念を定義するには、可測集合という概念が必要です。

[可測集合族]
集合$\Omega $の部分集合の集まり$ \mathcal{B} $が可測集合族であるとは、以下の性質を満たす事を言います。

$ \emptyset , \Omega \in \mathcal{B} $
$A \in \mathcal{B} $ならば$A ^c \in \mathcal{B} $
$A_{k} \in \mathcal{B} ,k=1,2,\cdots $ならば、$ \cup_{k} A_k \in \mathcal{B} $

可測集合族の元の事を可測集合と言います。

可測集合族自体は、$ \Omega $の部分集合を全て集めておけば出来るので、変な概念ではありません。貼り合わせたり、周りをみわたす分には穴がありませんよというイメージです。
例えば、集合$\Omega = \{ 0,1,2 \} $で、$ \mathcal{B} = \{\emptyset, \Omega , \{0\} \} $とかしてしまうと、$ \{0\} ^c =\{1,2 \} \notin \mathcal{B} $となってしまうので、可測集合族ではありません。
可測集合上の関数として、確率を定義できます。

[確率]

$\Omega $の中の可測集合族$ \mathcal{B} $を固定します。関数$P : \mathcal{B} \rightarrow \mathbb{R} $で、以下の性質を満たすものを確率と呼びます。

全ての$A \in \mathcal{B} $に対して$ P(A) \geq 0 $
$ P( \Omega ) =1 $
$ A_{k} \in \mathcal{B} ,k=1,2,\cdots $ が、$ i\neq j \Rightarrow A_i \cap A_j = \emptyset $を満たすなら、$ P(\cup_k A_k ) = \sum_k P(A_k) $

確率、といった時には全事象$ \Omega $、可測集合族$ \mathcal{B} $、確率$P $、の3つ組が暗に指定されています。この記事では、$ \Omega . \mathcal{B} , P $を確率と呼びます。
サイコロを1回だけ振る状況を考えるすると、$ \Omega =\{1,2,3,4,5,6 \} $ , $ \mathcal{B} $は$ \Omega $の部分集合全体, Pは元の数が1つの集合に対しては1/6 ,、２つ以上なら0、 $P(\Omega) =1 $となっています。

確率変数と累積分布関数

確率変数の定義と、確率変数がある時の確率の定義を確認します。

[確率変数]

$ ( \Omega . \mathcal{B} , P ) $を確率とします。関数
$$\begin{eqnarray}
X: \Omega \rightarrow \mathbb{R}
\end{eqnarray}$$
を確率変数と呼びます。確率変数$X$の値域 $ \{ X( \omega ) | \omega \in \Omega\} $ を標本空間と呼びます。
確率変数Xがある時、$X\leq x $である確率を以下のように考える事が出来ます。ただし、$ A_{X\leq x} =\{ \omega \in \Omega | X(\omega ) \leq x \} \in \mathcal{B} $とします。¹
$$\begin{eqnarray}
P(X\leq x ) = P( A_{X\leq x } )
\end{eqnarray}$$

現実に得られるデータが確率変数$X $で、$X $の振る舞いを理解するために、グラフを描いたり、手法を使ったりしているという感じです。
サイコロを投げる例だと、サイコロの出目が確率変数$X $で、値域は$ \{1,2,3,4,5,6 \} $です。また、$ P (X\leq 2 ) =1/3 $です。
色々なモノを確率変数と捉える事が出来ます。例えば、複数回サイコロを投げた時。6が出る個数を確率変数と思っても良いです。

確率変数がある時の確率を$x $の関数と捉えて、特別な名前で呼んだりします。

[累積分布関数]
$ ( \Omega . \mathcal{B} , P ) $を確率とし, $X $を確率変数とします。
$$\begin{eqnarray}
F_{X} (x) = P(X\leq x )
\end{eqnarray}$$
と書き直して、$F_{X} (x) $を確率変数$ X$の累積分布関数と呼びます。累積分布関数は、関数
$$\begin{eqnarray}
F_{X} : \mathbb{X} \rightarrow \mathbb{R}
\end{eqnarray}$$
です。ただし、$\mathbb{X} $でXの標本空間を表しました。累積分布関数を、単に分布関数と呼んだりもします。

数学の原理的には、確率そのものを決めるのは累積分布関数です。累積分布関数が特別な形に書けるときに、見知った形の確率分布が出て来ます。

累積分布関数と確率(質量)密度関数

確率$P(X=x ) $を考える事が出来ます。標本空間が連続か否かで呼び名が変わるのですが、確率(質量)密度関数という概念になります。

[確率(質量)密度関数]
$ ( \Omega . \mathcal{B} , P ) $を確率とし, $X $を確率変数とします。標本空間$ \mathbb{X} $が離散的な時、²
$$\begin{eqnarray}
f_{X}(x)= P(X=x )
\end{eqnarray}$$
を確率質量関数(probability mass function ; pmf)と呼びます。
標本空間が連続的なとき
$$\begin{eqnarray}
f_{X}(x)= P(X=x )
\end{eqnarray}$$
を確率密度関数(probability density function ; pdf)と呼びたいですが、これは大体0になってしまいます。
そこで、以下のように定義を変えます。
$$\begin{eqnarray}
F_{X}(t)= \int_{-\infty } ^{t} f_X (x) dx
\end{eqnarray}$$
となる$f_X (x) $が存在する時、$f_X (x) $ を確率密度関数と呼びます・

確率密度関数みたいなものが大体0になることの補足

$ P( X=x) = P\left( ( \{ X\leq x\} – \{ X) <x \} \right) = F_X (x) – \lim_{t \rightarrow x-} F_X(t) $なので、右連続なときは0になります。逆に、0にならないという事はその点の周りで関数の値に飛びがあるという事なので、現実ではあまり使えない分布関数です。

確率の定義から初めて行くと、分布関数が出てきて、特別な場合に確率密度関数が出てくるという事が分かります。
つまり、単に確率と言ってしまうと抽象的過ぎて、色々なモノが出てきてしまうわけです。
私たちが普段から接している正規分布などの確率分布は、累積分布関数から出てきたようなものなのでしょうか？多分そんなことはありません。
確率密度関数を上手く定義してやれば、確率が出てきて、数学の美味しい所を使えるというのを確認します。

確率密度関数から確率が生まれる話

確率というのは、3つ組$ ( \Omega . \mathcal{B} , P ) $の事で、と行くと、私たちが良く知っている正規分布などが中々出てこないし、累積分布関数が良く分からないのに確率密度関数だけ知っているという事に気持ち悪さを覚えると思います。
そこで。全事象$ \Omega $と、確率変数$X$の値域$\mathbb{X} $から初めて、確率密度関数を上手く定義すれば確率密度関数も隔離分布関数も出てくることを確認します。

確率密度関数の定義は、
$$\begin{eqnarray}
F_{X}(t)= \int_{-\infty } ^{t} f_X (x) dx
\end{eqnarray}$$
となる$ f_X (x) $の事でしたが、ここで大事な事は、
$$\begin{eqnarray}
1= \int_{-\infty } ^{\infty } f_X (x) dx
\end{eqnarray}$$
となる事です。これっぽいのを確率密度関数の定義としてみましょう。

$ \Omega $を集合とし、$X : \Omega \rightarrow \mathbb{R} $を写像とし、値域を$\mathbb{X} $とします。また、$\mathbb{X} =\Omega $とします。
$f_{X} : \mathbb{X} \rightarrow \mathbb{R} $が確率密度関数であるとは、

全ての$x\in X $について $ f_X(x) \geq 0 $
$ \int_{x \in \mathbb{X} } f_{X} (x) dx =1 $

となる事とします。

上で考えて確率密度関数から初めて、確率が出てくることを確認しましょう。
確率は、

全ての$A \in \mathcal{B} $に対して$ P(A) \geq 0 $
$ P( \Omega ) =1 $
$ A_{k} \in \mathcal{B} ,k=1,2,\cdots $ が、$ i\neq j \Rightarrow A_i \cap A_j = \emptyset $を満たすなら、$ P(\cup_k A_k ) = \sum_k P(A_k) $

という性質のものでした。

確率密度関数があるとき、$\mathcal{B} $ は、全事象$\Omega $ の部分集合全体とします。$ \Omega $の部分集合$A \subset \Omega $に対して、確率$P(A) $を
$$\begin{eqnarray}
P(A)= \int_{x\in A} f_{X} (x) dx
\end{eqnarray}$$
と定めます。確率の性質を満たすのか確認しましょう。

1については、0以上の値を持つ関数を積分するので成り立ちます。
2番は、上手くいくように定義を調整しました。
3番は、積分の性質から出て来ます。
という事で、確率密度関数を考えておくと、確率が出てくることが分かります。
現実では、正規分布やベルヌーイ分布など、確率密度関数を先に与えて、そこから確率変数の挙動を予測するのが普通なので、時々混乱するかもしれませんが、気にする必要はないのです。