어떤 사건이 서로 배반하는 원인 둘에 의해 일어난다고 할때, 실제 사건이 일어났을때 두 원인중 하나일 확률울 구하는 정리이다.
쉽게 말하면,
코로나 백신을 맞으면 코로나에 안걸릴 확률이 94.1%이라고 하는데, 이건 "백신을 맞으면" 이라는 선행조건이 반드시 이러나야 94.1%가 되는것이다.
백신을 맞으면 -> 94.1%로 코로나 예방
백신을 맞지않으면 -> 예방이 되나?
지금 바로 번화가에 나가보자. 밖에 나가보면 불특정 다수를 만날 수 있다. 눈앞에 수많은 사람이 있다고 가정할때,
그 사람이 A. 백신을 맞지않은사람인가? B. 백신을 맞은 사람인가? 구별할 수 있는가? 이것을 구별할 수 있어야 대응 방법을 결정할 수 있다.
골드만삭스는 내년 가을, 백신 접종률 70%를 전망하고있다. 지금이 내년 가을이고 예상대로 70%접종이 완료되었다고 가정하자. 그렇다면 눈앞에 수많은 사람들 중 100명을 머릿속으로 뽑아 이 100명을 모집단이라고 했을 때, 그 중 70명은 백신을 맞은사람이고 30명은 백신을 맞지 않은사람이다.
그러면 백신을 맞지 않은사람의 확률은 0.3, 백신을 맞은사람의 확률은 0.7로 할당할 수 있다. 이것이 타입에 대한 사전분포이고 아래처럼 직사각형을 통한 면적으로 시각화 할 수 있다.
위 그림을 보면 백신을 맞지 않은사람과 백신을 맞은사람간의 각각의 면적을 둘로 분기된 세계라고 본다. 그리고 이 각각의 확률인 0.3과 0.7을 더하면 1이 되는데 이것을 정규화 조건이라고한다.
그리고 이 사전확률은 내가 경험이 없어도 할당할 수 있다.
그럼 이 두 부류의 사람들 중에 나와 마주치거나 접촉(악수나, 같은 물건을 만지거나, 대화 등)할 확률은 어떻게 될까? 이 두 부류의 사람들이 나와 어떤 Action을 하여 이벤트가 발생할 확률은 직접 경험에 의한 데이터 없이는 알 수 없다. 반드시 경험, 실증, 실험에 기반한 수치가 필요하다.
따라서, 예시이므로 간단히 계산할 수 있도록 임의로 설정해보았다.
이 표에 의하면 눈앞에 사람이 백신을 맞지 않은사람이면, 그 사람은 0.3의 확률로 나와 어떤 방법(대화, 악수 등)으로 접촉할 것이다. 그리고 백신을 맞은 사람이면, 그 사람은 0.9의 확률로 나와 접촉할 것이다.
이 네가지의 세계를 그림으로 나타내면 아래와 같다.
이 각 구역의 나타날 확률은 면적의 크기와 같다. 그리고 이 네가지 세계의 확률을 모두 더하면 1이 나온다.
0.09+0.21+0.63+0.07 = 1
그런데, 어쩌다가 눈앞에 있는 사람 중 한명과 접촉해버렸다.. 이렇게 되면, 위의 4가지 세계에서 '접촉한다'가 관측되었기 때문에 '접촉하지 않는다'의 세계는 사라지게 되버린다. 이렇게 되면 가능세계가 한정되었다고한다.
이제 더이상 접촉하지 않았을 때의 확률은 필요없어지므로, '확률의 변화'가 생긴다.
행동의 관측에 따라 가능성이 두가지로 좁혀졌기 때문에 이제 각각의 확률을 더해도 1이 되지 않는다. 따라서 비례관계를 유지한 채 정규화 조건을 회복시켜 확률을 다시 구해야 한다.
0.09 : 0.63 = 0.125 : 0.875
정규화하여 새롭게 구한 이 확률을 '베이즈 역확률' 또는 '사후확률'이라고 부른다.
끝
베이즈 역확률의 패러독스 문제 (0) | 2021.01.08 |
---|---|
확률적 추론에서 표준 통계학과 베이즈 통계학 차이 (0) | 2021.01.07 |