Major Study./Bioinformatics

bayes rule - 베이즈 정리

sosal 2015. 10. 8. 00:10
반응형


/*

 http://sosal.kr/
 * made by so_Sal
 */

통계 데이터는 다음과 같이 주어졌다고 가정해보자.

 

유방 X선 검사는 유방암을 진단하는 척도로 사용된다.

10명의 양성반응을 일으키는 여성에서는 1명이 실제로 유방암을 진단받았고,

10만명의 음성반응을 일으키는 여성에서 20명만이 유방암을 진단받았다.

 

 

 

우리는 모든 모집단 정보를 가지고 있기 때문에, 사전확률과 사후확률을 모두 쉽게 구할 수 있다.

사전 확률: 유방암을 진단받기 이전에 유방암을 가질 확률

               = (1+20) / (1+20+9+99980) = 21/100010 = 0.000209979.. (즉 0.0209979%)

사후 확률: 유방암에 양성반응으로 진단받은 후에, 유방암을 가질 확률

               = (1/9+1) = 1/10 = 0.1 (즉 10%)

 

베이즈의 정리는 바로 사전확률에서 특정한 사건 (진단)이 일어날 경우, 그 확률이 바뀔 수 있다는 뜻이다.

실제로 사전확률을 구하기는 쉽지만, 사후 확률을 구하기는 굉장히 어렵다.

 

ex1)

임신한 아이가 남자일지, 여자일지 확률은 1/2 (50%)이다. 유전자 검사는 실제 여자아이의 경우 99.2% 확률로 성별을 측정하고, 남자아이일 경우 98.9%로 성별을 측정할 수 있다. 유전자 검사 결과가 여자아이였을 경우, 실제 여자아이일 확률(사후확률)은 사전확률(50%)과 다를것이다.

 

ex2)

무작위적인 유전자 위치에서 CpG island일 확률(사전확률)은 우리가 알고있다. HMM 모델을 이용하여 특정 유전자좌를 CpG island인지 예측한 결과를 우리가 알고 있다면, 특정 위치가 CpG island 확률은 사전확률과 다르다고 볼 수 있다. 왜냐하면 HMM 모델에 의한 정보가 주어졌기 때문에, 사후확률로 구분하여 새롭게 확률을 구해야한다.

 

이러한 예처럼 우리는 베이즈 정리를 이용하여, 실제로 측정하기 굉장히 힘든 사후확률을 사전확률을 통해 예측할 수 있다.


 


아래는 베이즈정리의 직접적인 내용은 아니지만, 이러한 확률론에서 쓰이는 용어들이다.

(실제로 model 평가 데이터에서 PPV, NPV 결과를 보여주지 않았다고 리뷰어가 저자를 꾸중(?)한 경우을 봤다 ㅋㅋ)


 

 

- Definition

예측도 - 양성예측도, 음성예측도 (Predict value positive / negative)

Predictive value positive (PV+, PPV): A person has a disease given that the test is positive.

Predictive value negative(PV-, NPV): A person does not have a disease given that the test is negative.



- 예제에서의 Predictive value negative(PV-)

negative mammograms(유방 X선 검사 - negative)의 100,000명의 여자들 중에 20명이 2년안에 유방암을 진단받았다.

 -> 유방 X선 검사에서 negative 결과를 받은 여성의 유방암 진단률: 20 / 100000 = 0.0002 (0.02%)



- 예제에서의 Predictive value positive (PV+)

positive mammograms(유방 X선 검사 - positive) 10명중 1명이 유방암을 진단받았다.

 -> 유방 X선 검사에서 positive 결과를 받은 여성의 유방암 진단률: 1 / 10 = 0.1 (10%)



 



민감도(sensitivity) / 특이도(specificity)


Sensitivity: The symtom is present given that the person has a disease.

Specificity: The symtom is not present given that the person does not have a disease.


예제에서의 Sensitivity

질병을 가지고있는 사람 21명중에, 양성반응이라고 예측된 사람은 한명이다.

-> 1 / 21 = 0.04719.. (4.76%)


예제에서의 specificity

질병을 가지고있지 않은 99989명중에 음성반응으로 예측된 사람은 99980명이다.

-> 99980 / 99989 = 0.9999. (99.99%)






Bayes' Rule - 베이스 정리




베이즈 정리에 의하면 다음과 같은 식을 구할 수 있다.

 

P(A|B) = P(A∩B) / P(B) = P(A)*P(B|A) / P(B)

P(B) = P(A∩B) + P(~A∩B) = P(A)*P(B|A) + P(~A)*P(B|~A) )

 

 

위 내용을 아래 통계데이터와 관련지어서 얘기하면 다음과 같다.

 

 

 

* 위의 통계데이터를 가지고 있을 시에, 양성반응이 일어났을 때 실제 질병에 걸릴 확률은 1/(1+9) 로 쉽게 구할 수 있다.

* 하지만 기기의 정확도만 알고 있을 때, 양성반응이 일어났을 때 실제 질병에 걸릴 확률은 베이즈 정리를 이용하여 구할 수 있다. (즉, 질병에 걸린 사람의 확률과 진단기계의 질병군에 대한 정확도, 정상군에 대한 정확도. 3가지 만으로 양성반응이 일어났을 때 실제로 질병에 걸렸을 확률을 구할 수 있다는 뜻이다.)

 

 

 

- Example. 위의 통계자료에서 모집단 정보는 없고, 오로지 사전확률만 알고있을 때, 베이즈 정리를 이용하여 사후확률을 구할 수 있다.

1. 지금까지 질병에 대한 조사 결과, 0.0209979% 확률로 이 병에 걸린다고 한다.

2. 어떤 기기는 실제로 질환자에 대해서 4.7619% 확률로 양성반응을 보이고, 정상인에 대해서 0.009001% 확률로 양성반응을 보인다.

(이 확률들은 위의 통계데이터를 이용하여 만든 문제)

 

그렇다면 양성반응이 나온 사람이 실제로 질병에 걸렸을 확률은 몇인가?

 

실제로 우리는 모집단 정보를 전혀 모르지만, 위의 3가지 정보만으로 양성반응에 대한 실제 질병에 걸렸을 확률을 구할 수 있다.

 

P(A): 질병에 걸릴 확률: 0.000209979

P(B): 기기의 진단에서 양성반응이 나올 확률 (?)

P(B|A): 질병에 걸렸을 때, 양성반응이 나올 확률: 0.047619
P(B|~A): 질병에 걸리지 않았지만, 양성반응이 나올 확률: 0.00009001

 

P(A|B): 양성반응이 나왔을 때, 실제 질병에 걸렸을 확률: ?

 

P(A|B) = P(A∩B) / P(B) = P(A)*P(B|A) / P(B)

                                   = 0.000209979 * 0.047619 / P(B)

 

P(B) = P(A∩B) + P(~A∩B) = P(A)*P(B|A) + P(~A)*P(B|~A)

                                      = 0.000209979 * 0.047619 + (1-0.000209979) * 0.00009001

                                      = 0.00009000811 (약)

 

따라서 P(A|B) = 0.000209979 * 0.047619 / 0.00009000811 

                     = 0.1110899 (약 11.109%)

 

 

 

 

결론:

 

베이즈 정리를 이용하여 구한 사후 확률은 11.109%로, (실제 모집단 데이터에서는 10%) 거의 비슷하게 베이즈 정리를 이용하여 사후확률을 측정할 수 있다.