サイトアイコン マサムネの部屋

東京都のコロナウイルス感染者は実は沢山いる?志村けんさんの感染から推定!

統計学

先日、とあるtweetが話題になりました。以下のものです。

この方の言う事は正しいのでしょうか。確率論的に考えてみました。

スポンサーリンク

問題設定

確率の言葉を使う為に、少しだけ例を使って説明します。
打率が2割の選手Aさんがいたとしましょう。しかし、この選手はランナーがいる時は打率が6割を超えるとします。
さて、この時打者Aさんが打席に入った時、ヒットを打つ期待度は状況によって大きく変わるのではないでしょうか?
ランナーがいる時に打順が回ってきたならヒットを打つことを期待1してしまいますが、打者無しの時はそんなに期待しないでしょう。
確率の言葉では、このような状況を以下のように書くことが出来ます。
“Hit” でAさんがヒットを打つ事象を表し、ランナーがいるという事象を”Runner”で表します。
$$\begin{eqnarray}
P({\rm Hit }) &=&0.2\\
P({ \rm Hit} | \rm{Runner} )&=&0.6
\end{eqnarray}$$
\( P({ \rm Hit} | \rm{Runner} ) \)で、ランナーがいる時のAさんがヒットを打つ確率(=打率)を表しています。
このように確率を使うと、tweetの趣旨は以下のようにまとめる事が出来ます。
Covid =1でコロナウイルスに感染するという事象を表し、Fa=1 で有名人であるという事象を表します。
東京都の人口は1000万人という事にしておいて、有名人は東京都で選ばれし10人という事にしておきます。

[問題]

東京都では、 P(Covid=1)= 200/1000万 と発表しているが、P(Fa=1)=10/1000万の有名人である志村けんさんがコロナウイルスに感染している。これらを元に推定すればP(Covid=1|Fa=1)は、発表より大きくなるだろう。

確率論からの計算

上の問題で出てきたようなP(X|Y) は条件付き確率と呼ばれ、以下の式で計算(定義)されます。
$$\begin{eqnarray}
P(X|Y)=\frac{P(X,Y)}{P(Y)}
\end{eqnarray}$$
P(X,Y)は、\(P(X\cap Y) \)としても良いです。これは、事象X=Xかつ事象Y=Yの時の確率という意味です。
コロナウイルスに感染する事と、有名人である事は関係ないという事にすると、
$$\begin{eqnarray}
P(Covid, Fa)= P(Covid)P( Fa)
\end{eqnarray}$$
と書く事が出来ます。今までの情報で計算すると、
$$\begin{eqnarray}
P(Covid=1|Fa=1)= \frac{P(Covid=1,Fa=1)}{P(Fa=1)} = P(Covid=1)
\end{eqnarray}$$
となります。
有名人がコロナウイルスに感染するという前提を盛り込んでも、感染者数は変わらない
という結果が出ました。tweetの主張とは違う答えが出てきましたが、何故でしょ?
それは、
コロナウイルスに感染する事と、有名人である事は関係ない
という仮定があったからです。単純に考えると、芸能界の人は人と接する機会が多いので、一般の人より感染のリスクが高いでしょう。このような前提を盛り込むと、別の結果が出てきます。
例えば、
$$\begin{eqnarray}
\frac{P(Covid=1,Fa=1)}{P(Fa=1)} =P(Covid)=1) *100
\end{eqnarray}$$
とかにすれば、東京都の発表の100倍の人数が感染しているだろうという推論も出来てしまいます。
芸能人の感染のリスクは一般人より高いでしょうが、100倍が正しいかは怪しい所です。
このトリックを使って不安を煽られたりすることがあると思いますが、大げさに悲観的にならずにいきたいものです。

まとめ

  1. もちろんホームランも