[R 과 통계학 - 4] 조건부 확률, 베이즈 정리 및 이산확률분포(1)

이번 포스팅에서도 마찬가지로 확률에 대한 부분으로서 확률에서 가장 많이 쓰이는 개념은 조건부 확률에 대해서 알아보고 이 조건부 확률 개념을 응용한 베이즈 정리에 대해서도 짚고 넘어가보도록 하겠습니다.

1. 조건부 확률

조건부 확률이란 어떤 사건 B가 일어났다는 조건 아래 사건 A가 일어날 확률을 조건부확률이라 부르고 다음과 같이 정의합니다.

조건부 확률

예제를 한번 살펴보도록 하겠습니다.

어떤 모임에는 남자가 5명, 여자가 6명으로 구성되었다. 남자 중에는 2명이 안경을 쓰고 있고 여자 중에는 4명이 안경을 쓰고 있다고 한다. 임의의 한 명을 뽑았을 때, "이 사람이 안경을 쓰고 있다."라는 정보를 알고 있을 때, 그 사람이 남자일 확률은 얼마인가?

위 조건부 확률 공식을 그대로 대입하면,

A : 남자일 사건

B : 안경을 쓰고 있을 사건

따라서 정답은 1/3, 0.333333333 ㅇ을 구할 수 있습니다.

2. 베이즈정리

조건부 확률을 공부한다면 베이즈 정리는 사실상 필수라고 할 수 있는데, 우선 이 베이즈 정리를 한번 살펴보면 아래와 같습니다.

베이즈 정리

베이즈 정리란 새로운 조사나 실험을 통해 얻은 추가적인 정보가 주어질 경우 기존에 알고 있던 확률, 즉 사전확률에 이 새로운 정보를 반영하여 수정된 확률, 즉 사후확률을 계산하는 논리방법을 베이즈 정리라고 합니다.

* 사전확률 : 관측자가 이미 알고 있는 사건으로부터 나온 확률로서 P(A1), P(A2) ... P(An)을 의미

* 우도 : 이미 알고 있는 사건이 발생했다는 조건하에 다른 사건이 발생할 확률로 위 베이즈 정리에서 P(B|A1), P(B|A2) ...P(B|An)을 의미함

* 사후확률 : 사전확률과 우도를 통해서 알게되는 조건부 확률로 베이즈 정리에서는 P(Ak|B)부분을 의미

이러한 베이즈 정리를 그림을 통해서 이해해보도록 할게요.

표본공간 S는 A1, A2, A3의 합집합이라고 할 때

사후확률 P(A1|B)를 알고 싶다면 베이즈정리를 이용해 사전 확률 P(A1), P(A2), P(A3)와 우도 P(B|A1), P(B|A2), P(B|A3)을 이용하여 사후확률 P(A1|B)를 구할 수 있습니다.

3. 이산확률분포

이전 포스팅에서 확률변수에 대해서 다루었는데 기억나시나요?

시행해봐야 비로서 알 수 있는 변수를 확률변수라고 했었는데 그 때 이산확률변수와, 연속확률변수에 대해서 언급했었습니다.

그렇다면 먼저 이산확률분포에 대해서 알아보도록 하겠습니다.

3.1 이산확률분포의 정의

이산확률분포에서의 확률변수는 셀 수 있는 변수로서 예를 들어 동전을 던지는 실험에서 동전을 던졌을 때 앞면이 나오는 횟수를 확률변수라 생각한다거나, 주사위를 던져서 홀수가 나오는 횟수, 총을 쏴서 명중을 한 횟수 등 이런식으로 유한하여 셀 수 있는 확률변수들에 대한 분포가 바로 '이산확률분포'입니다.

3.2 이산확률분포의 평균과 분산

 

만약 제가 컴퓨터 하루에 컴퓨터 게임을 하는 시간이 다음과 같은 확률분포로 주어진다고 가정할 때, 이 확률분포의 평균과 분산을 구하면, 즉 이산확률변수 X의 평균과 분산을 구해볼까요?

1일 게임시간

0

1

1.5

2

2.5

3

P(X=x)

0.3

0.2

0.2

0.1

0.1

0.1

평균과 분산을 구해주면 다음과 같습니다.

1.평균

  μ=0×0.3+1×0.2+1.5×0.2+2×0.1+2.5×0.1+3×0.1=1.25()

 

2.분산

이것을 한번 R을 통해서 구해보도록 할까요?

 

 

x <- c(0,1,1.5,2,2.5,3)
px <- c(0.3,0.2,0.2,0.1,0.1,0.1)
result <- x*px
cumsum(result)

cumsum()이라는 함수는 누적합을 구해주는 함수이고 마지막에 1.25를 보시면 위에서 직접구해준 값과  동일합니다.

분산도 같은 방법으로 구해줄 수 있으니 여러분들이 직접구해보시면 좋을 것 같습니다.

 

여기까지 조건부확률과 베이즈 정리 및 이산확률분포에 대해서 알아보았습니다.