スポンサーリンク
スポンサーリンク

順序統計量が従う確率分布

統計学 統計学

データを取得した時、最も大きな値や、最も小さな値が従う確率分布を求める方法があります。その一つの手段として、順序統計量を紹介します。

スポンサーリンク

順序統計量とは

n個の独立な確率変数が一つの分布Pから得られている状況を考えます。
X1,,XnP
これらから1点ずつサンプルし、小さい順に並べたものを
X(1)X(n)
とします。{X(1),,X(n)}の事を順序統計量と呼びます。
例えば、サイコロを5回降った結果
1,5,4,4,3
と数字が得られたとき、順序統計量に直すと、
X(1)=1,X(2)=3,X(3)=4,X(4)=4,X(5)=5
となります。
大事な順序統計量には、最大値、最小値、中央値があります。

順序統計量が従う確率(離散変数の場合)

初めに、離散確率変数の場合を考えます。つまり、x1<x2<<xNに値をとる確率分布Pを考え、独立な確率変数をn個考えます。1
例えば、この時、サンプルで得た値に対して、P(X1xi)=piと置くと、
P(X1x1)=p1,P(X1x2)=p1+p2,,P(X1xN)=i=1npi
などと分かります。順序統計量についても確率が計算出来ます。
xi,Xjを固定して、Pi=P(Xjxi)と置きます。2

P(X(j)xi)=k=jnCkPik(1Pi)nk

証明しましょう。
Y=#{j|Xjxi}としましょう。Xjxiとなる確率がPiである事に注意しましょう。3 Xjxiを成功、Xj>xiを失敗と思うと、Yは二項分布Bin(n,Pi)に従う事が分かります。また、Yの定義から
P(Yj)=P(X(j)xi)
となるので、上の主張が分かります。

順序統計量の各点における確率も分かります。

P(X(j)=xi)=k=jnnCk(Pik(1Pi)nkPi1k(1Pi1)nk)
ただし、xi=x1のときは、
P(X(j)=x1)=P(X(j)x1)=k=jnnCkP1k(1P1)nk
で計算出来る。4

最大値X(n)の確率は以下のようになります。
P(X(n)=xi)=PinPi1n
例えば、1年毎の交通事故の発生件数やをサンプルし、ポアソン分布を当てはめ、事故の最大発生件数が従う確率分布を求める事が出来ます。求めた確率分布の期待値や最頻値を求めておくことで、リスクを大体ですが、見積もる事が出来ます。

順序統計量が従う確率(連続変数の場合)

連続確率変数も同じような事が出来ます。確率分布関数と、密度関数をF,fで表します。5 に従う独立なn個の確率変数X1,,Xnがあるとしましょう。離散確率分布の時と全く同じ考えで、以下の事が分かります。

P(X(j)x)=k=jF(x)k(1F(x))nk

これを微分する事で、Xjの確率密度関数が分かります。

fX(j)(x)=n!(j1)!(nj)!F(x)j1f(x)(1F(x))nj

これは気合で証明できます。
まずはP(X(j)x)xで微分します。
P(X(j)x),=k=j{kf(x)F(x)k1(1F(x))nk(nk)f(x)F(x)k(1F(x)nk1)=nCj(jf(x)F(x)j1(1F(x))nj)+k=j+1nnCkkf(x)F(x)k1(1F(x))nkk=jn1nCk(nk)f(x)F(x)k(1F(x))nk1
一項目から、主張の式が出て来ます。計算を進める為に、二項目と三項目をまとめましょう。
=n!(j1)!(nj)!F(x)j1f(x)F(x)nj+k=jn1(nCk+1(+1)nCk(nk))f(x)F(x)k(1F(x))nk1=n!(j1)!(nj)!F(x)j1f(x)F(x)nj
nCk+1(k+1)=(nk)nCkなので、まとめた組み合わせの部分がゼロになります。これで主張が示せました。
確率密度関数の式についてですが、X(j)がどの位置にいるのか?という三項分布の問題に帰着して解く事も出来ます。
つまり、
X(j)<xF(x)X(j)=xf(x)X(j)>x1F(x)
という場合です。この考え方で、順序統計量の同時確率分布を求める事も出来ます。
最小値X(1) と最大値X(n)が従う確率密度関数は以下のようになります。
fX(1)(x)=nf(x)(1F(x))n1fX(n)(x)=nf(x)F(x)n1
例えば、広告のクリック率や、何かを作った時の不良率の最小値が従う確率分布を求めたりするのに使う事が出来ます。

まとめ

  • 順序統計量の定義をした
  • 順序統計量の従う確率分布を計算した


  1. xN のNは、例えば、二項分布 Bin(m,p)を使うと、xi=i で、N=m となります。整数や自然数全体からサンプリング出来る時は大きな数Nを適当に設定します。
  2. 全てのj{1,,n}に対して、XjPなので、Pi=P((Xjxi)でもPi=P(X1xi)でも良いんですが。
  3. Pi=P(Xjxi)
  4. P(X=x0)=0と思って上の公式で計算しても良いです。
  5. F(x)=xf(t)dtです。
タイトルとURLをコピーしました