[R 과 통계학 - 7] 이산확률분포(4) - 기하분포, 초기하분포, 포아송분포

 

이전 포스팅에서 음이항분포까지 다루었고 이번 포스팅에서는 기하분포, 초기하분포, 포아송분포 3가지를 다루어보도록 하겠습니다.

 

1. 기하분포

어떤 자격증 시험을 볼 때, 시험을 2번 합격하는 것은 아무 의미가 없습니다. 시험을 처음 합격할 때 까지 총 시행횟수 또는 실패횟수에 더 관심이 가게되죠.

 

이처럼 음이항분포에서는 K가 1인 경우인 처음으로 성공이 일어날 때 까지의 총 시행횟수 또는 실패횟수에 대한 확률 분포를 기하분포라고 부릅니다. 즉 기하분포는 음이항분포의 한 종류인 것이죠.

 

정리하면 다음과 같습니다.

 

"매 성공확률이 p로 일정한 베르누이 시행을 독립으로 시행할 때 처음으로 성공이 일어날때 까지의 총 시행횟수를 확률변수 X라하면 확률분포는 다음과 같다."

 

 이 확률분포를 기하분포(Geometric distribution)라 부르고 기호로는 G(x:p)이라 합니다.

확률변수 X가 시행의 성공률 p인 기하분포를 따르는 것을 X~G(p)라 씁니다.

 

- 기하분포의 평균 : 1/p

- 기하분포의 분산 : q/p**2

 

다음은 예제를 통해서 기하분포에 대해서 알아보도록 하겠습니다.

 

예제1. 성공률이 0.1인 장비강화 주문서가 있다. 다음의 물음에 답하여라

(1) 주문서가 성공할 때 까지 시행횟수 X에 대한 확률분포를 구하여라

(2) 주문서가 성공하기 위해 2번 시행할 확률은 얼마인가?

(3) 주문서를 성공시키기 위해 적어도 4번 시행할 확률은 얼마인가?

(4) 주문서를 성공시키기 위해 필요한 평균 시행횟수는 몇번인가?

 

<풀이>

(1)

(2) P(X=2) : dnbinom(x=1, size= 1, prob = 0.1) = 0.09

(3) P(X>=4) = 1-P(X<=3) = 1-pnbinom(q=3-1, size=1, prob = 0.1) = 0.729

(4) 기하분포 X~G(0.1) 평균은 1/0.1 = 10(회)이다. 즉 주문서를 성공시키기 위해 필요한 평균 시행횟수는 10번이다.

 

여기서 알 수 있듯이 통계를 모르고 평상시에 알고 있던 '10% 주문서니까 평균적으로 10개를 바르면 1번 성공하겠지?'라는 생각은 사실 '처음 성공까지 평균적으로 10개 들어간다'라는 의미였습니다.

 

사실 10% 주문서를 10개를 발랐을 때, 1번 성공할 확률은 이항분포를 통해서 구해주면 38.7%정도가됩니다.

 

2. 초기하분포

  초기하분포란 '크기가 유한한 모집단으로부터 비복원 추출시 나타나는  확률분포이다.'라고 정의되어 있는데요.

예를 들어 설명하면 어떤 한 연못에 전체의 잉어의 수 N을 추측해보려고합니다.

 

 우선 뜰채를 이용해 일부분을 건져 그 잉어들에게 표시를 한 후 다시 연못에 풀어주면 이 연못에는 표시가 없는 잉어들과 표시가 있는 잉어들로 나뉘게 됩니다.

 

 일정시간이 흐른 후 비복원추출로 n마리의 잉어를 잡았을 때 그중 표시되어 있는 잉어의 수를 확률변수 X라 하고 이 실험동안에는 전체 잉어의 수 N이 불변이라 가정할 때 이러한 확률분포를 초기하분포(Hyper geometric distribution)라 합니다.

 

이때 확률변수X는 n마리의 잉어 중 표시된 잉어(성공)의 수이므로 확률변수 X가 가질 수 있는 값은

표시된 잉어의수 M과 잉어의 수 n 중 최솟값까지 가질 수 있습니다.

 

 확률변수 X가 초기하분포를 따르는 것을 X~HG(N.M,n)이라 쓰고 모집단의 N이 굉장히 큰 경우는 이항분포로 근사됩니다.

 - 초기하분포의 평균 : n(M/N)

 - 초기하분포의 분산 : n(M/N)(1-M/N){(N-n)/N-1)}

 

예제2. 연못에 사는 잉어의 수를 알기 위해 10마리를 잡아 표시한 후 다시 놓아주고 얼마 지난 후 다시 15마리를 잡아 표시가 있는 고기를 세어보니 2마리였다. 연못의 잉어는 몇마리가 있다고 할 수 있는가? 또 이를 위한 기본 가정은 무엇인가?

 

<해답>

 시간의 흐름에 따라 잉어의 수가 불변이라 가정한하며  N=Mn/x 즉, 10*15/2 =75 (마리)로 추정할 수 있다.

 

3. 포아송분포

 '포아송 분포(Poisson distribution)는어진 시간, 면적 또는 공간 내에 발생하는 어떤 사건의 횟수에 관심이 있을 때 사용한다.' 예를 들어 학과 사무실에 1시간 동안 걸려오는 전화의 수, 주유소에서 1시간 동안 오는 자동차의 수 등이 있겠습니다.

 

포아송 분포는 몇가지 전제조건이 필요한데요, 다음과 같습니다.

 

 - 독립성 : 어떤 단위 시간 또는 단위 공간에서 발생한 결과는 중복되지 않은 다른 시간이나 공간에서 발생한 결과와 

              서로 독립이다.

 

 - 일정성 : 어떤 단위 시간 또는 단위 공간에서 발생한 확률(또는 횟수)은 그 시간의 크기, 혹은 공간의 크기에 비례하고, 

               외부의 영향을 받지 않는다. 즉 단위 시간이나 공간에서 발생한 평균발생횟수는 일정하다.

 

 - 비집락성 : 매우 짧은 시간이나 매우 작은 공간에 두 개 이상의 결과가 동시에 발생할 확률은 무시할 수 있다.

 

포아송분포는 평균 사건의 횟수 λ에 의하여 결정되는 분포입니다. 따라서 확률변수 X가 포아송분포를 따르는 것을 X~P(λ)라고 씁니다.  

 

포아송 분포의 평균과 분산은 모두 λ로 같습니다.

 

R에서 지원하는 포아송분포 함수는 다음과 같습니다.

함수 구분

포아송 분포 R 함수/ 모수

pois() 

  밀도 함수

 d

  dpois(x, lambda)

  누적 분포 함수

 p

  ppois(q, lambda, lower.tail = TRUE/FALSE

  분위수 함수

 q

  qpois(p, lambda, lower.tail = TRUE/FALSE

  난수 발생

 r

  rpois(n, lambda)

 

 

예제3.고속도로에서 매일 발생하는 교통사고의 수는 모수 λ=3인 포아송분포를 따른다고 한다. 이때 다음을 구하여라

(1) 하루 동안 교통사고가 3건 이상 발생할 확률을 구하라.

(2) 하루 동안 교통사고가 적어도 1건 발생할 확률을 구하라.

 

<해답 R코드>

# 1번풀이 P(X>=3) 
1- ppois(q=2, lambda = 3) #1-P(x<=2)
ppois(q=2, lambda = 3, lower.tail = FALSE) # P(X>2)

# 2번풀이 1-P(X=0)
1-dpois(x=0, lambda = 3)