[R 과 통계학 - 2] 확률변수 및 순열과 조합

 안녕하세요. 저번 [R과 통계학 -1] 포스팅에 이어서 두번째 포스팅입니다.

 

이번 포스팅에서는 확률에 대한 부분중 기초적인 부분만 다루기 때문에 R과 관련된 내용을 작성하지 않았습니다.

 

그럼 확률에 대한 개념을 정리하고 넘어가기 위해서 사상, 확률변수, 확률의 성질, 그리고 순열과 조합에 대해서

정리해보는 시간을 가져보도록 하겠습니다.

 

 

1. 사상과 확률 변수

고등학교 시간에 확률에 대해서 배우면 주사위, 동전 던지기에 대해서 많이 접해보았을텐데요.

이처럼 주사위 던지기, 동전 던지기 처럼 던지는 '행위'에 의해 생긴 결과를 '사상'이라고 합니다.

이러한 사상이 어느 정도 일어나기 쉬운지를 수치화한 것이 확률이고 모든 사상에 대한 확률을 합하면 그것은 1(100%)가 됩니다.

그렇다면 확률변수란 무엇이냐?

확률과 사상을 말하는 겁니다. 즉 시행해봐야 비로서 결과를 알 수 있는 변수를 확률변수라하죠.

그리고 이러한 확률변수의 값이 1,2,3 처럼 딱딱 떨어지는 값으로 존재하여 유한한 것을 '이산확률변수'라 하고

키, 몸무게, 매출금액처럼 확률변수가 취할 수 있는 값의 수가 무한한 것에 대해서는 '연속확률변수'라고 합니다.

그럼 확률에 대한 간단한 예제를 살펴보도록 하겠습니다.

문제 : 어떤 학교 학생들의 60%는 반지를 끼지 않고 목걸이도 하지 않는다. 20%는 반지를 끼고 있으며 30%는 목걸이를 하고 있다. 학생들 중 임의로 한 명을 선택할 때 다음의 확률을 구하여라.

(1) 그 학생이 반지 또는 목걸이를 하고 있을 확률은 얼마인가?

(2) 그 학생이 반지와 목걸이를 하고 있을 확률은 얼마인가?

(1)번의 경우는

반지 또는 목걸이를 하고 있을 확률을 구해주면 됩니다. 이때 '또는', 즉 or에 초점을 두고 보면

학생들의 60%는 반지 또는 목걸이도 하지 않기 때문에 반대로 학생들의 40%는 반지 또는 목걸이를 한다는 말과 같죠. 이처럼 60%가 아닌, 즉 60%의 여사건 집합을 구해주면 되기 때문에

정답은 0.4(40%)가 되겠습니다.

(2)번의 경우는

반지와 목걸이를 같이(AND) 하고 있을 경우를 구해주면되는데요

반지와 목걸이를 같이하고 있다는건 20%에도 속하고 30%에도 속하겠죠.

그럼 20%와 30%에도 속하는 학생들중 반지나 목걸이 하나만 착용하고 있는 or이였던 학생들을 제외해주면 되겠습니다.

따라서 0.2(반지낀 학생)+0.3(목걸이를 낀 학생)-0.4(반지와 목걸이 둘 중 1개만 낀학생)

이 문제에서 우리는 다음과 같은 확률의 성질을 확인할 수 있습니다.

바로 사상A와 사상B가 서로 독립적인 사건(배반사상)이라면

위와 같은 식이 성립되는데요, 이러한 확률의 성질들에 대해서 한번 정리하고 넘어가도록 하겠습니다.


#확률의 성질

1. 공집합인 사건의 확률은 0이다.

2. 어떤 사건의 여집합인 사건의 확률은 1-원래 사건의 확률과 같다.

3. 사상A와 사상B가 서로 배반사상인 경우

4. 사상A와 사상B가 서로 배반사상이지 않은 경우


2. 순열과 조합

확률을 구하기 위해서는 경우의 수를 구하는 방법인 순열과 조합에 대해서도 알아둘 필요성이 있겠죠?

고등학교때 한번 들어보았던 내용인 순열과 조합 이번에 다시한번 정리하고 넘어가보도록 하겠습니다.

어떤 실험을 N가지 방법으로 실시하고 각 방법마다 K가지 방법으로 실시하였다면 모든 실험의 방법은

N*K가지가 존재합니다.

예를 들어

동전 1개, 주사위 1개를 던지는 실험의 총 가지수는 2*6 =12 이고

주사위를 2개던지는 실험의 총 가지수는 6*6 = 36입니다.

아무튼 이러한 확률 변수의 가짓수를 구할 때 순열과 조합을 이용할 때가 많은데요.

예제를 한번 살펴보겠습니다.

#순열

A, B, C, D, E 5명 중에 회장, 반장, 부반장을 정하는 방법에 대해서 생각해보도록 하겠습니다.

한 사람이 동시에 두가지 직을 맡을 수 없다고 한다면 우선 회장 자리에 5명 모두 올 수 있고, 그 다음 반장 자라에는 앞에 회장자리에 누군가 한명이 앉기로 정해져 있으니 한명을 제외한 4명이고 마지막 부반장 자리에는 앞의 두 자리를 제외한 3명이 올 수 있습니다. 따라서 5명 중 3명을 뽑아 순서 있게 배열하는 방법은 모두 5*4*3 = 60가지입니다.

이렇게 순서를 고려하여 배열하는 방법을 순열(Permutation)이라고 합니다.

이를 기호를 사용하여 정리하면 다음과 같습니다.

#조합

조합이란 순열과는 달리 순서에 상관없이 뽑는 경우의 수를 구하는 것으로 Combination이라고 부릅니다.

가령 A, B, C, D, E 5명 중에서 3명의 임원을 뽑는 방법을 구한다면 조합을 이용해서 다음과 같이 쉽게 구할 수 있습니다.

위 공식을 통해서 구해주면

이렇게 구해줄 수 있게됩니다.

이번 포스팅에서는 여기까지 다루고 다음 포스팅에선 조건부확률, 베이즈 정리 그리고 다양한 확률분포에 대해서

다루도록 하겠습니다.

감사합니다.