이전 포스팅에서 음이항분포까지 다루었고 이번 포스팅에서는 기하분포, 초기하분포, 포아송분포 3가지를 다루어보도록 하겠습니다.
1. 기하분포
어떤 자격증 시험을 볼 때, 시험을 2번 합격하는 것은 아무 의미가 없습니다. 시험을 처음 합격할 때 까지 총 시행횟수 또는 실패횟수에 더 관심이 가게되죠.
이처럼 음이항분포에서는 K가 1인 경우인 처음으로 성공이 일어날 때 까지의 총 시행횟수 또는 실패횟수에 대한 확률 분포를 기하분포라고 부릅니다. 즉 기하분포는 음이항분포의 한 종류인 것이죠.
정리하면 다음과 같습니다.
"매 성공확률이 p로 일정한 베르누이 시행을 독립으로 시행할 때 처음으로 성공이 일어날때 까지의 총 시행횟수를 확률변수 X라하면 확률분포는 다음과 같다."
이 확률분포를 기하분포(Geometric distribution)라 부르고 기호로는 G(x:p)이라 합니다.
확률변수 X가 시행의 성공률 p인 기하분포를 따르는 것을 X~G(p)라 씁니다.
- 기하분포의 평균 : 1/p
- 기하분포의 분산 : q/p**2
다음은 예제를 통해서 기하분포에 대해서 알아보도록 하겠습니다.
예제1. 성공률이 0.1인 장비강화 주문서가 있다. 다음의 물음에 답하여라
(1) 주문서가 성공할 때 까지 시행횟수 X에 대한 확률분포를 구하여라
(2) 주문서가 성공하기 위해 2번 시행할 확률은 얼마인가?
(3) 주문서를 성공시키기 위해 적어도 4번 시행할 확률은 얼마인가?
(4) 주문서를 성공시키기 위해 필요한 평균 시행횟수는 몇번인가?
<풀이>
(1)
(2) P(X=2) : dnbinom(x=1, size= 1, prob = 0.1) = 0.09
(3) P(X>=4) = 1-P(X<=3) = 1-pnbinom(q=3-1, size=1, prob = 0.1) = 0.729
(4) 기하분포 X~G(0.1) 평균은 1/0.1 = 10(회)이다. 즉 주문서를 성공시키기 위해 필요한 평균 시행횟수는 10번이다.
여기서 알 수 있듯이 통계를 모르고 평상시에 알고 있던 '10% 주문서니까 평균적으로 10개를 바르면 1번 성공하겠지?'라는 생각은 사실 '처음 성공까지 평균적으로 10개 들어간다'라는 의미였습니다.
사실 10% 주문서를 10개를 발랐을 때, 1번 성공할 확률은 이항분포를 통해서 구해주면 38.7%정도가됩니다.
2. 초기하분포
초기하분포란 '크기가 유한한 모집단으로부터 비복원 추출시 나타나는 확률분포이다.'라고 정의되어 있는데요.
예를 들어 설명하면 어떤 한 연못에 전체의 잉어의 수 N을 추측해보려고합니다.
우선 뜰채를 이용해 일부분을 건져 그 잉어들에게 표시를 한 후 다시 연못에 풀어주면 이 연못에는 표시가 없는 잉어들과 표시가 있는 잉어들로 나뉘게 됩니다.
일정시간이 흐른 후 비복원추출로 n마리의 잉어를 잡았을 때 그중 표시되어 있는 잉어의 수를 확률변수 X라 하고 이 실험동안에는 전체 잉어의 수 N이 불변이라 가정할 때 이러한 확률분포를 초기하분포(Hyper geometric distribution)라 합니다.
이때 확률변수X는 n마리의 잉어 중 표시된 잉어(성공)의 수이므로 확률변수 X가 가질 수 있는 값은
표시된 잉어의수 M과 잉어의 수 n 중 최솟값까지 가질 수 있습니다.
확률변수 X가 초기하분포를 따르는 것을 X~HG(N.M,n)이라 쓰고 모집단의 N이 굉장히 큰 경우는 이항분포로 근사됩니다.
- 초기하분포의 평균 : n(M/N)
- 초기하분포의 분산 : n(M/N)(1-M/N){(N-n)/N-1)}
예제2. 연못에 사는 잉어의 수를 알기 위해 10마리를 잡아 표시한 후 다시 놓아주고 얼마 지난 후 다시 15마리를 잡아 표시가 있는 고기를 세어보니 2마리였다. 연못의 잉어는 몇마리가 있다고 할 수 있는가? 또 이를 위한 기본 가정은 무엇인가?
<해답>
시간의 흐름에 따라 잉어의 수가 불변이라 가정한하며 N=Mn/x 즉, 10*15/2 =75 (마리)로 추정할 수 있다.
3. 포아송분포
'포아송 분포(Poisson distribution)는 주어진 시간, 면적 또는 공간 내에 발생하는 어떤 사건의 횟수에 관심이 있을 때 사용한다.' 예를 들어 학과 사무실에 1시간 동안 걸려오는 전화의 수, 주유소에서 1시간 동안 오는 자동차의 수 등이 있겠습니다.
포아송 분포는 몇가지 전제조건이 필요한데요, 다음과 같습니다.
- 독립성 : 어떤 단위 시간 또는 단위 공간에서 발생한 결과는 중복되지 않은 다른 시간이나 공간에서 발생한 결과와
서로 독립이다.
- 일정성 : 어떤 단위 시간 또는 단위 공간에서 발생한 확률(또는 횟수)은 그 시간의 크기, 혹은 공간의 크기에 비례하고,
외부의 영향을 받지 않는다. 즉 단위 시간이나 공간에서 발생한 평균발생횟수는 일정하다.
- 비집락성 : 매우 짧은 시간이나 매우 작은 공간에 두 개 이상의 결과가 동시에 발생할 확률은 무시할 수 있다.
포아송분포는 평균 사건의 횟수 λ에 의하여 결정되는 분포입니다. 따라서 확률변수 X가 포아송분포를 따르는 것을 X~P(λ)라고 씁니다.
포아송 분포의 평균과 분산은 모두 λ로 같습니다.
R에서 지원하는 포아송분포 함수는 다음과 같습니다.
함수 구분 |
포아송 분포 R 함수/ 모수 pois() |
|
밀도 함수 |
d |
dpois(x, lambda) |
누적 분포 함수 |
p |
ppois(q, lambda, lower.tail = TRUE/FALSE |
분위수 함수 |
q |
qpois(p, lambda, lower.tail = TRUE/FALSE |
난수 발생 |
r |
rpois(n, lambda) |
예제3.고속도로에서 매일 발생하는 교통사고의 수는 모수 λ=3인 포아송분포를 따른다고 한다. 이때 다음을 구하여라
(1) 하루 동안 교통사고가 3건 이상 발생할 확률을 구하라.
(2) 하루 동안 교통사고가 적어도 1건 발생할 확률을 구하라.
<해답 R코드>
# 1번풀이 P(X>=3)
1- ppois(q=2, lambda = 3) #1-P(x<=2)
ppois(q=2, lambda = 3, lower.tail = FALSE) # P(X>2)
# 2번풀이 1-P(X=0)
1-dpois(x=0, lambda = 3)
'R + 통계' 카테고리의 다른 글
[R 과 통계학 - 6] 이산확률분포(3) - 이항분포 dbinom(), 음이항분포 dnbinom() - R 실습 (0) | 2020.07.15 |
---|---|
[R 과 통계학 - 5] 이산확률분포(2) - 베르누이분포, 이항분포, 음이항분포 (0) | 2020.07.14 |
[R 과 통계학 - 4] 조건부 확률, 베이즈 정리 및 이산확률분포(1) (0) | 2020.07.14 |
[R 과 통계학 - 3] R과 R Studio 설치 및 실행 (0) | 2020.07.14 |
[R 과 통계학 - 2] 확률변수 및 순열과 조합 (0) | 2020.07.14 |