2章 確率分布表、条件付確率、ベイズとは
下のような、縦と横に項目名が並んでいて数字が埋まっている表はよく目にされると思います。
予防接種 (事象B) | 計 | |||
摂取(B) | 未接種(Bc) | |||
首輪 (事象A) | あり(A) | 37 | 8 | 45 |
なし(Ac) | 7 | 16 | 23 | |
計 | 44 | 24 | 68 |
どこにでもある普通の集計表ですね。クロス表とも呼ばれています。
この表は「イヌもしくはネコが首輪を付けているか予防接種を受けているか」を表しています。
この表の右下の合計値68が全数です。
イヌとネコ、全部で68頭分のデータが表になっています。
頭という数え方は大型の哺乳類に使うそうですが、匹でもどちらでも間違ってはないようです。
3頭の子豚より3匹の子豚のほうが耳に馴染んでいます。
ですが、匹夫とか匹敵しか、匹にあまり印象が無いので頭を使うことにしました。
余計な話を挟んで元に戻すパターンが多いですが、気にせず進みます。
68頭を1として、各マスを割合いに置き換えてみます。
上の表がこんな風に変化すると、確率分布表といった呼び方の表になります。
予防接種 (事象B) | 計 | |||
摂取(B) | 未接種(Bc) | |||
首輪 (事象A) | あり(A) | 0.54 | 0.12 | 0.66 |
なし(Ac) | 0.1 | 0.24 | 0.34 | |
計 | 0.65 | 0.35 | 1 |
この表の外側の項目、計の部分ですね、縦も横もそうですが、ここを周辺確率と言います。
表の中のところは、同時確率です。予防接種と首輪の項目が同時に成立しています。
Bとは区別して下さい、Bは予防接種の摂取の方で、
は未接種の方です。
小さいcは補集合の意味です。は首輪無しの集合で、
は未摂取の集合にあたります。
この場合の集合とは観測値の集まりのことで、既に集計され表のマスの中に数字として埋められています。
68頭について何も知らず1頭を選んだ場合、首輪を付けていて、なおかつ予防接種を受けている個体を選ぶ確率はで54%です。
首輪の有無か、予防接種の未済か、どちらかが先に判ったとします。
首輪は見れば判ることですが、例としてそうします。
ある1頭をまた選んだとして、その個体が予防接種済みである事が判ったとしましょう。
予防接種が済んでいる個体は44頭です。
その個体が首輪をしている確率もとしても間違いではないです。
ですが、折角予防接種済みである事が判っているですから、より
とした方が確率計算として妥当です。
明らかにグループ分け出来るのですから、関係ない方を除いたほうが精度は上がります。
摂取済みの中の首輪ありの確率は?
Bが判っている中からAである確率は?
このように何か先に判っている事があって、そこからさらに確率を考える事を、条件付き確率、もしく事後確率といいます。
これを記号にするとP(A|B)で、言葉に置き換えるとP(これからの生起する確率|先に判った確率)という感じになります。
ベン図で表すと色無しの部分だけを全体として、首輪のあり/なしを確率計算すればいいわけです。
この場合は面積の大きさは気にしないで下さい。
摂取(B)の列で、首輪の付いている確率は、
で約84%となります。
首輪のないの方は、
で約16%ですね。
樹形図を使うとピンとくるかも知れません。
予防接種ー摂取
- 首輪あり
| |
| ー 首輪なし
-未摂取 ー 首輪あり
|
ー首輪なし
条件付確率の記号も慣れてしまえば難しいものではありません。
でも
でも、もう意味は判りますよね。
再びこのベイズの公式ですが、もなんとなく見えてきませんか。
ついでですからベイズの特徴的な考え方について少し紹介します。
4つの部屋のどこかに宝物が隠してあるとします。
各部屋を順番に探すのですが、確率の高そうなところから探した方が効率的です。
そこで、4つの部屋を{あA、あB、いA、いB}と名前をつけてみます。
どの部屋に宝物があるか全く情報がありませんので、仮定で均等に割り振って表にしてみます
A | B | |
あ | 0.25 | 0.25 |
い | 0.25 | 0.25 |
その部屋に宝はあるけど見つけられない場合もありますので、宝物がある部屋を探して見つけ出す確率を80%とします。
先ず{あA}の部屋を探して見つからなかったとします。
探したけど見つからなかった確率は、ベイズを応用するととなります。
この式で確率分布表を更新するとこうなります。
A | B | |
あ | 0.0625 | 0.3125 |
い | 0.3125 | 0.3125 |
宝物を探し始める時、4部屋に均等に確率を割り振りました。
無いからと言って確率ゼロからは始められませんので、均等に振り分けるのはスタートとしては妥当です。
これが主観と言われる確率です。
ベイズ確率が特に注目され実用されているのも、この主観による確率が扱い易いという特徴があるからです。
この事からベイズ確率を指して主観確率(subjective probability)などと言われたりします。
ベイズの事例として沈没したアメリカの原子力潜水艦を探す時に使われたとして有名です。
この時も海域をいくつかに分割し経験的な予測に基いた確率を割り振り、ベイズを用いて絞込みながら見つけたそうです。
潜水艦を探すにしても多くの人やお金が動きます。
見つかった見つからなかったの結果についても責任を持たなくてはなりません。
このような周囲への影響が大きい場合は「何回か探したけど見つかりませんでした」では報告として不味いので、客観的に評価できる科学的手法が必要になります。
最初に全く情報がないとき、あるいは経験者の勘や推測からしか確率を得られない場合など、ベイズは有効に機能します。
一方、ベイズで話題性のあるベイジアンフィルターは、主観確率というより事前学習で確率分布を得て、確率計算にベイズを利用しています。
これについては別の章で取り上げたいと思います。
さて次は、疾病と検査結果についての確率例です。
1000人中50人が疾病Xに罹患しているとします。
ある検査薬では、罹患者の82%に陽性反応を示しますが、罹患していない人の7%にも陽性反応が出てしまいます。
仮にこの検査薬で陽性が出た場合本当に罹患している確率について考えてみます。
分り易いようにこれらの関係を表にしてみます。
先ず陽性反応が出たということなのでの行に絞り込みます。
の行の中の真陽性なので求めたい確率は
と考えられ、
となります。
ですので、これをそのまま式に代入すると、
が求まります。
ですので、陽性反応が出ていて、なおかつ本当に罹患しているのは38%程度になります。
大抵1回の検査で結論付けるということはしないので、これを再検査してみるとどうなるでしょうか。
この場合の再検査は、陽性反応が出た人だけが対象となりますので罹患している可能性は38%程度です。
として考えて先ほどの式で再計算すると
が求まります。
つまり再検査して再度陽性反応が出た場合、87.8%程度は真陽性という事になります。
検査結果が陰性だったのに見逃された人の方も2回検査を受けて見逃される可能性は、
ですので
ぐらいまで減少します。
3回受ければ見逃しはぐらいになります。
あれっ!?陰性だった人は1回検査を受けてるので罹患している確率も変えないとダメなんじゃないの?と思われた方も多いと思います。
ここは考え方ですね。
2回目で陽性反応が出たときに、1回目で陽性反応が出た人より真陽性である確率は低い、とは見なしませんので、フラットなままで再検査してもらいます。再検査までの間に罹患する事もありえるので、ここは変えないほうがいいとの考え方です。
計算式だけしかなくて「何で、こうなん?」と考えないと読めない資料もまま目にします。
計算よりは確率の考え方を紹介するコラムですので、「いや、そこは変えるべきだろ」と計算式を読み解いてもらえれば、それはその方がコラムの主旨に合致します。
この章では、確率分布、条件付確率を紹介しました。ベイズの概要についても紹介しました。
次回は数学のおさらいで、場合の数と集合を取り上げます。
前章へ | 次章へ |