ベイズの定理の復習をしておきたい方は以下の記事からどうぞ。
物が壊れる確率は、対数正規分布や、ワイブル分布に従うと言われています。対数正規分布を使うと、正規分布での計算結果がそのまま使えます。例えば、スマートフォンを地面に落として、何回目で機能に異常が出るでしょうか。50回は持ちこたえない気がしますが。何個か壊してデータが得られたと仮定して、どのくらいで壊れるのか予測してみます。
正規分布の場合のベイズの定理の応用はこちらの記事からどうぞ。
対数正規分布と正規分布
対数正規分布という名前には由来があります。対数正規分布に従う確率変数のlogを取ると、正規分布に従う事が、名前の由来です。また、正規分布は和に関して再生性がありますが、対数正規分布には積に関して再生性があります。
対数正規分布は、以下の式で定義されます。
$$\begin{align}
f(x) = \frac{1}{\sqrt{2 \pi \sigma ^2 } x} \exp\left(- \frac{ (\ln x – \mu)^2}{2 \sigma ^2} \right)
\end{align}$$
正規分布が x>0上で定義される関数になっています。y=log x と変数変換した関数g(y)が正規分布に従う事は、[mathjax] \( ( \ln x)’ =1/x \)から分かります。
yが従う正規分布は, [mathjax]\( \mathcal{N}(y |\mu, \sigma ^2 ) \) です。
対数正規分布とベイズの定理
Xが対数正規分布に従うとしましょう。このとき、[mathjax] \(z = ln X \) は正規分布[mathjax]\( \mathcal{N}(z|\mu, \sigma ^2 ) \)に従います。zの平均値[mathjax] \( \mu \)が正規分布に従うと仮定することで、ベイズの定理で[mathjax] \( \mu , z \) の確率分布を推定できます。
結果を復習しておきましょう。以下のように、[mathjax] \( \sigma ^2 \) は既知として、事前分布を決めておきます。[mathjax]\( \lambda \) は分散の逆数です。
$$\begin{eqnarray}
p(z|\mu ) &=&\mathcal{N}(z|\mu, \lambda ^{-1}) \\
p( \mu ) &=& \mathcal{N}(\mu |m, \lambda_{\mu}^{-1})
\end{eqnarray}$$
[mathjax]\( \mathbf{Z} =(z_1, \cdots , z_N ) \) とデータを取得したと仮定しましょう。平均値の事後分布は以下のようになります。
$$\begin{eqnarray}
p(\mu |\mathbf{Z} ) &=& \mathcal{N} (\mu | \hat{\mu} , \hat{\lambda} ^{-1} )\\
\hat{\lambda} &=& N\lambda +\lambda _{\mu} \\
\hat{m} &=& \frac{ \lambda \sum z_i + \lambda _{\mu} m}{\hat{\lambda}}
\end{eqnarray}$$
対数正規分布とベイズの定理による故障率の計算
スマートフォンを床に落として壊す実験をしたと仮定しましょう。その結果、以下のようなデータ[mathjax]\( \mathbf{X} \) を得る事が出来ました。この情報から、何回落としたら壊れると言えるか考えてみましょう。
今回のサンプル全体での平均値1
は15, 標準偏差は6.2 でした。単純に考えると、[mathjax]\( 3 \sigma \) 2 の中には入るでしょうという事で、平均値ー3×標準偏差の数字は耐えますよと言うのですが、今回は運悪く(管理人的には運よく)0より小さい数字になってしまいます。
現実の業務ではテスト結果があったら対数正規分布やワイブル分布でフィッティングして、累積積分値を求めて95%以上生存するのは~などとやるわけです。しかし、今回はベイズ統計学の記事なので、この試験結果を事前分布として壊れてしまう回数の平均値の確率分布を求めてみましょう。
対数正規分布でフィットすると、試験結果は[mathjax]\( \mu =2.7 , \sigma =0.35 \)くらいです。という訳で、事前分布の情報は以下のようになります。平均値は記号が被ってしまうのでmで表します。
$$\begin{eqnarray}
p(\ln ( m ) )&=& \mathcal{N }(m| 2.7 , 0.35 ) \\
p(x | \ln (m) ) &=& \mathcal{N}(x|m, 6.2)
\end{eqnarray} $$
これらから事後分布は
$$\begin{eqnarray}
p( \ln (m) | x ) =\mathcal{N} \left( \ln (m) | 2.6, 11^{-1} \right)
\end{eqnarray} $$
となります。exp を取って、サンプリングしてみましょう。その結果平均値の事後分布がどうなったか見てみましょう。
平均値は15,標準偏差は1.3になりました。確率分布の式が決まっているので、実際に壊してみなくても、サンプリングを行って故障回数の分布を可視化することが出来るのも強みです。
\( 3 \sigma \)の範囲を取ると、 11回は持つだろうという結論になります。これは偶然ですが、試験結果の大体最小値の数字になっています。偉い人に報告しても面倒な事は言われなさそうです。中身が分からないのに説明を求める偉い人ほど面倒なモノはありませんからね。
まとめ
・対数正規分布に従う確率変数のlog を取ると、正規分布に従うようになる。
・logを取ったりexp を取ることで、事前分布が対数正規分布の時でもベイズの定理による予測が出来る。
・適当にサンプリングしたら説明のしやすいデータが取れた。