データを取得した時、最も大きな値や、最も小さな値が従う確率分布を求める方法があります。その一つの手段として、順序統計量を紹介します。
順序統計量とは
n個の独立な確率変数が一つの分布\(P \)から得られている状況を考えます。
$$\begin{eqnarray}
X_1 , \cdots , X_n \sim P
\end{eqnarray}$$
これらから1点ずつサンプルし、小さい順に並べたものを
$$\begin{eqnarray}
X_{(1)}\leq \cdots \leq X_{(n)}
\end{eqnarray}$$
とします。\( \{ X_{(1)} , \cdots , X_{(n)} \} \)の事を順序統計量と呼びます。
例えば、サイコロを5回降った結果
$$\begin{eqnarray}
1,5,4,4,3
\end{eqnarray}$$
と数字が得られたとき、順序統計量に直すと、
$$\begin{eqnarray}
X_{(1)}=1,X_{(2)}=3, X_{(3)}= 4,X_{(4)}=4, X_{(5)} =5
\end{eqnarray}$$
となります。
大事な順序統計量には、最大値、最小値、中央値があります。
順序統計量が従う確率(離散変数の場合)
初めに、離散確率変数の場合を考えます。つまり、\(x_1 < x_2 < \cdots < x_N \)に値をとる確率分布\( P \)を考え、独立な確率変数をn個考えます。1
例えば、この時、サンプルで得た値に対して、\(P(X_1 \leq x_i ) =p_i \)と置くと、
$$\begin{eqnarray}
P(X_1\leq x_1 ) =p_1 , P(X_1 \leq x_2 ) = p_1 + p_2 , \cdots , P(X_1 \leq x_N ) = \sum _{i=1} ^n p_i
\end{eqnarray}$$
などと分かります。順序統計量についても確率が計算出来ます。
\(x_i , X_j \)を固定して、\( P_i = P(X_j \leq x_i ) \)と置きます。2
$$\begin{eqnarray}
P(X_{(j) }\leq x_i ) = \sum_{k=j} {}_n C_{k} P_i ^k (1- P_i)^{n-k}
\end{eqnarray}$$
証明しましょう。
\(Y = \# \{ j | X_j \leq x_i \} \)としましょう。\(X_j \leq x_i \)となる確率が\(P_i \)である事に注意しましょう。3 \(X_j \leq x_i \)を成功、\(X_j > x_i \)を失敗と思うと、Yは二項分布\({\rm Bin }(n,P_i ) \)に従う事が分かります。また、Yの定義から
$$\begin{eqnarray}
P(Y \geq j ) =P(X_{(j)} \leq x_i )
\end{eqnarray}$$
となるので、上の主張が分かります。
順序統計量の各点における確率も分かります。
$$\begin{eqnarray}
P(X_{(j) } = x_i ) = \sum_{k=j}^{n} {}_n C_{k} \left( P_i ^k (1- P_i)^{n-k}
– P_{i-1} ^k (1- P_{i-1})^{n-k} \right)
\end{eqnarray}$$
ただし、\(x_i =x_1 \)のときは、
$$\begin{eqnarray}
P(X_{(j) } = x_1 ) = P(X_{(j) } \leq x_1 ) = \sum_{k=j}^{n} {}_n C_{k} P_1 ^k (1- P_1)^{n-k}
\end{eqnarray}$$
で計算出来る。4
最大値\(X_{(n)} \)の確率は以下のようになります。
$$\begin{eqnarray}
P(X_{(n)} = x_i ) = P_i ^{n} – P_{i-1} ^n
\end{eqnarray}$$
例えば、1年毎の交通事故の発生件数やをサンプルし、ポアソン分布を当てはめ、事故の最大発生件数が従う確率分布を求める事が出来ます。求めた確率分布の期待値や最頻値を求めておくことで、リスクを大体ですが、見積もる事が出来ます。
順序統計量が従う確率(連続変数の場合)
連続確率変数も同じような事が出来ます。確率分布関数と、密度関数を\(F, f \)で表します。5 に従う独立なn個の確率変数\(X_1 , \cdots , X_n \)があるとしましょう。離散確率分布の時と全く同じ考えで、以下の事が分かります。
$$\begin{eqnarray}
P(X_{(j) } \leq x ) = \sum_{k=j} F(x) ^k (1- F(x) )^{n-k}
\end{eqnarray}$$
これを微分する事で、\(X_{j} \)の確率密度関数が分かります。
$$\begin{eqnarray}
f_{X_{(j) }}( x ) = \frac{ n! }{(j-1)! (n-j)!}F(x) ^{j-1} f(x)(1- F(x) )^{n-j}
\end{eqnarray}$$
これは気合で証明できます。
まずは\( P(X_{(j) } \leq x ) \)を\(x \)で微分します。
$$\begin{eqnarray}
P(X_{(j) } \leq x ) ^{,}&=& \sum_{k=j} \{ kf(x) F(x) ^{k-1} (1- F(x) )^{n-k} – (n-k)f(x)F(x)^k (1-F(x)^{n-k-1} ) \\
&=& _n C_{j} \left( j f(x) F(x) ^{j-1} (1-F(x))^{n-j} \right) \\
&+& \sum_{k=j+1}^{n} {}_n C_{k} k f(x){F(x)}^{k-1} (1-F(x) )^{n-k} \\
&-& \sum_{k=j}^{n-1 } {}_n C_{k} (n-k) f(x) F(x)^{k} (1-F(x) )^{n-k-1}
\end{eqnarray}$$
一項目から、主張の式が出て来ます。計算を進める為に、二項目と三項目をまとめましょう。
$$\begin{eqnarray}
&=& \frac{ n! }{(j-1)! (n-j)!}F(x) ^{j-1} f(x)F(x)^{n-j} \\
&+& \sum_{k=j} ^{n-1 } \left( _n C_{k+1} (+1) – _n C_{k} (n-k) \right) f(x) F(x)^{k} (1-F(x))^{n-k-1} \\
&=& \frac{ n! }{(j-1)! (n-j)!}F(x) ^{j-1} f(x)F(x)^{n-j}
\end{eqnarray}$$
\( _n C_{k+1} (k+1) = (n-k) _n C_{k} \)なので、まとめた組み合わせの部分がゼロになります。これで主張が示せました。
確率密度関数の式についてですが、\(X_{(j)} \)がどの位置にいるのか?という三項分布の問題に帰着して解く事も出来ます。
つまり、
$$\begin{eqnarray}
X_{(j)} &<&x \Leftrightarrow F(x) \\
X_{(j)} &=&x \Leftrightarrow f(x) \\
X_{(j)} &>& x \Leftrightarrow 1- F(x)
\end{eqnarray}$$
という場合です。この考え方で、順序統計量の同時確率分布を求める事も出来ます。
最小値\(X_{(1)} \) と最大値\(X_{(n)} \)が従う確率密度関数は以下のようになります。
$$\begin{eqnarray}
f_{X_{(1)}} (x) &=& nf(x)\left(1- F(x)\right) ^{n-1} \\
f_{X_{(n)}} (x) &=& n f(x) F(x)^{n-1}
\end{eqnarray}$$
例えば、広告のクリック率や、何かを作った時の不良率の最小値が従う確率分布を求めたりするのに使う事が出来ます。
まとめ
- 順序統計量の定義をした
- 順序統計量の従う確率分布を計算した
- \(x_N \) のNは、例えば、二項分布 \( {\rm Bin } (m, p ) \)を使うと、\(x_i =i \) で、N=m となります。整数や自然数全体からサンプリング出来る時は大きな数Nを適当に設定します。
- 全ての\(j\in \{ 1, \cdots ,n \} \)に対して、\(X_j \sim P \)なので、\( P_i = P((X_j \leq x_i ) \)でも\( P_i = P( X_1 \leq x_i ) \)でも良いんですが。
- \( P_i = P(X_j \leq x_i ) \)
- \( P(X= x_0 )=0 \)と思って上の公式で計算しても良いです。
- \( F(x)= \int_{-\infty} ^{x} f(t) dt \)です。