データを取得した時、最も大きな値や、最も小さな値が従う確率分布を求める方法があります。その一つの手段として、順序統計量を紹介します。
順序統計量とは
n個の独立な確率変数が一つの分布
これらから1点ずつサンプルし、小さい順に並べたものを
とします。
例えば、サイコロを5回降った結果
と数字が得られたとき、順序統計量に直すと、
となります。
大事な順序統計量には、最大値、最小値、中央値があります。
順序統計量が従う確率(離散変数の場合)
初めに、離散確率変数の場合を考えます。つまり、
例えば、この時、サンプルで得た値に対して、
などと分かります。順序統計量についても確率が計算出来ます。
証明しましょう。
となるので、上の主張が分かります。
順序統計量の各点における確率も分かります。
ただし、
で計算出来る。4
最大値
例えば、1年毎の交通事故の発生件数やをサンプルし、ポアソン分布を当てはめ、事故の最大発生件数が従う確率分布を求める事が出来ます。求めた確率分布の期待値や最頻値を求めておくことで、リスクを大体ですが、見積もる事が出来ます。
順序統計量が従う確率(連続変数の場合)
連続確率変数も同じような事が出来ます。確率分布関数と、密度関数を
これを微分する事で、
これは気合で証明できます。
まずは
一項目から、主張の式が出て来ます。計算を進める為に、二項目と三項目をまとめましょう。
確率密度関数の式についてですが、
つまり、
という場合です。この考え方で、順序統計量の同時確率分布を求める事も出来ます。
最小値
例えば、広告のクリック率や、何かを作った時の不良率の最小値が従う確率分布を求めたりするのに使う事が出来ます。
まとめ
- 順序統計量の定義をした
- 順序統計量の従う確率分布を計算した