[R 과 통계학 - 1] 통계학을 공부하는 이유, 통계학이란?

 이번에 제가 쓰려고 하는 [R과 통계학]이라는 시리즈에서는 지금까지 제가 학교나 책에서 배운

R 그리고 통계학에 대해서 글로 정리하여 데이터 분석에 관심이 있는 독자분들에게 도움이 되었으면 합니다.

 

 현재 우리는 SAS나 SPSS, R 같은 통계 프로그램 툴을 활용하면 수학 공식에 얽메이지 않고 개념적인 수준에서 통계학을 공부할 수 있습니다.

 

 다만 통계학적 지식없이 통계학 프로그램을 사용하는 것은 경우에 따라 큰 오해와 피해를 불러일으킬 수 있으므로 어느정도 통계학적 지식은 필요하다고 생각합니다.

 저도 경영대학생이고 일단 주먹구구식으로 일단 책을사고 선행과목도 안 듣고 통계학과 2~4학년 과목을 들으면서 공부해왔던지라 이런저런 시행착오(?)라 해야할까요?

아무튼 R과 통계학을 공부하면서 느꼈던 어려운점들

정리하자면 내가 통계학을 왜 해야하는지, 어디서부터 어떻게 해야하는지 등에 대해서도

어느 정도 정리를 하면서 이번 [R과 통계학] 시리즈를 작성하고자 합니다.

이 포스팅을 작성하면서 참고한 책은 다음과 같습니다.

1. 앤디 필드의 유쾌한 R 통계학

https://book.naver.com/bookdb/book_detail.nhn?bid=14532857

 

앤디 필드의 유쾌한 R 통계학

R과 함께 떠나는 발칙하고도 유쾌한 통계학 여행!딱딱하고 지루한 통계학 책은 가라! 통계, R, 그리고 영국식 코미디의 기상천외 콜라보!통계 분야의 초베스트셀러 《DISCOVERING STATISTICS USING SPSS》 제3판의 기세를 몰아서, 앤디 필드는 제레미 마일스와 팀을 이루어 《앤디 필드의 유쾌한 R 통계학》을 집필했다. 전 세계의 학생들이 앤디 필드의 책들을 사랑하게 된 독특한 성(性)적 유머 코드와 자기 비하 문체는 이 책에서도 여전하다. R은 자료 분석에 사용되는 프리웨어로 계속 발전하고 있고, 유연하며, 무엇보...

book.naver.com

2. 통계학(Statistics)

https://book.naver.com/bookdb/book_detail.nhn?bid=6992822

 

통계학

이학박사 이희숙의『통계학』. 통계학에 사용되는 기초 개념과 통계분석 방법의 원리를 정리한 책이다. 통계학의 개요, 자료의 정리·요약 방법 등의 기술통계학 분야를 비롯하여 확률과 확률변수, 확률분포도로 추론통계학을 배우기 위해 반드시 알아야 하는 이론, 표본분포, 추론통계학의 개념, 분산분석, 상관분석과 회귀분석, 범주형 자료분석 등을 상세히 다루었다. 부록으로 통계분포표와 연습문제의 풀이를 수록하였다.

book.naver.com

3. 통계학 도감

https://book.naver.com/bookdb/book_detail.nhn?bid=13911731

 

통계학 도감

통계학은 과학의 문법이다!통계학을 접해본 사람들이 흔히 하는 말이 있다. 학교나 회사에서 통계 분석을 활용해야 하는데, 무엇을 어떻게 해야 할지 모르겠다는 것이다. “기본 입문서는 읽었지만 실제로 활용하려고 하면 어떤 방법을 선택하여 적용해야 할지 모르겠다.”고 말하는 사람들도 있다. 이 책은 통계학을 배워야 하는 고등학생, 대학생들뿐 아니라 통계를 이용하여 실무를 해야 하는 직장인들을 대상으로 통계학의 기초적인 지식부터 시작해서 베이즈 통계학, 빅데이터 등의 응용편까지 골고루 다루었다.자칫 어려울 수 있는 내용을 도표와 일러스트를...

book.naver.com

4. R을 활용한 탐색적 자료분석

https://book.naver.com/bookdb/book_detail.nhn?bid=6800188

 

R을 활용한 탐색적 자료분석

통계자료의 탐색적 분석을 다룬 책. 2000년에 출간된 허명회, 문승호의 <탐색적 자료분석> R 버전이다. 최근 부상하고 있는 R의 장점을 살리기 위해 특히 이변량 및 다변량 자료의 탐색 부분을 보강했고, 동적 그래픽스 부분을 추가했다.

book.naver.com

이렇듯 많은 책과 또 학기중에 배운 책에 없는 내용들을 이번 시리즈에 담을 계획이기 때문에

[R과 통계학] 시리즈는 다른 포스팅의 시리즈들과 달리 내용이 방대해지지 않을까 하는 걱정이 들지만

최대한 방대한 내용을 압축하고 정리하여 언제든지 다시 읽으면 바로바로 머릿속에 채워넣을 수 있도록

작성해보고자 합니다.

1. 통계학을 공부하는 이유

 그럼 이번 첫번째 포스팅에서는 간단하게 통계학을 공부하는 이유와 통계학에 전반적인 이야기를 하고자합니다.

저나 독자분들이나 통계학을 공부하게된 배경은 너무나도 분명하고 간단합니다.

데이터를 통해서 의미있는 가치를 찾으려 하기 때문이겠죠.

사실 통계학은 모든 학문의 기반이 되는데, 가령 사람들이 왜 저렇게 행동할까?(심리학)

문화에 따라 행동방식이 다른 이유는 무엇일까?(인류학), 기업이 이익을 극대화하는 방법은 무엇일까?(경영학)

토마토를 먹으면 암에 걸리지 않을까?(약학,생물학), 지구가 예전보다 더 뜨거워졌을까?(지리학, 환경연구)

등 주제가 어떤 것이든 그것을 연구하는 공부하는데 있어서 통계학은 이러한 질문에 답하는 수단이자 도구입니다.

따라서 우리는 이러한 흥미로운 질문에 답하기 위해서 데이터(data)가 필요하고 이 데이터를 통해서

양적 연구방법(정량적 방법), 질적 연구방법(정성적방법) 등을 수행하게됩니다.

양적 연구방법 : 수치 자료(data)를 연구하는 방법

질적 연구방법 : 수치가 아닌 자료(data)를 연구하는 방법

이러한 두 연구 방법은 서로 경쟁하는 것이아닌 보완하는 접근방식들입니다.

자 그럼 이러한 연구방법들을 통해서 어떻게 흥미로운 질문에 대해서 답변할 수 있을까요?

연구과정에 대해서 알아보겠습니다.

 연구 과정

우선 우리는 이해하고 싶은 어떠한 관찰 대상인 Object가 있어야하고 그 다음에는

관측을 설명하는 이론을 만들고 그 이론으로부터 뭔가를 예측해서 가설을 만듭니다.

이때 이 예측을 검증하기 위해서는 Data(자료)가 필요한 것이며, 이 자료들을 분석하죠.

자료를 분석한 결과가 애초의 이론을 지지 할 수도 있지만, 이론과 달라 이론을 수정해야할 수도 있습니다.

이렇듯 이론은 자료수집과 분석으로 이어지고, 자료 수집과 분석은 이론의 검증 또는 수정으로 이어지게 됩니다.

2. 통계학이란?

 인구가 늘어나고 사회 구조가 복잡해짐에 따라 위정자가 국가 전체의 상태를 정확하게 파악하기 위해 생겨난

통계학(Statistics)는 국가(state)의 상태(state)를 살피는 것에서 그 어원을 찾을 수 있습니다.

 17세기 이후 통계학은 주로 정치적인 필요에 의해 인구와 종교, 산업에 대한 정보를 수집하는 형태로 발전해왔으며 특히 1665년 페스트(흑사병)으로 인한 유럽 인구의 사망자가 속출하면서 사망과 출생에 관한 통계에 관심을 가지게 되었고 그 당시 통계학은 인구 추이와 사망률에 대한 연구가 주요 관심사 였습니다.

 하지만 오늘날은 다릅니다.

 

 우리 모두가 일상생활에서 쉽게 숫자로 표현된 통계를 접하면서 살고 있습니다. 이제 누구라도 방대한 양의 자료를 정리요약한 통계 정보에 쉽게 접근하고 또 그것을 활용할 수 있습니다. 따라서 통계에 대한 활용 능력이 곧 문제 해결능력이 되고 보다 정확한 미래 예측으로 이어 질 수 있습니다.

 이처럼 확실히 예측할 수 없는 현상에 대해서 자료를 수집하고 정리 요약하여 그 구조를 파악하고 현재의 상태를

설명하고 불확실한 미래를 과학적으로 예측할 수 있도록 도와주는 학문을 통계학이라고 할 수 있습니다.

사실 이는 되게 통계학에 대해서 거창하게 소개한 것인데 좀 더 현실적으로 통계학을 바라보면서 설명을 드리자면

 대선후보들의 지지율을 조사하기 위해 우리나라의 모든 유권자의 지지율을 조사하는 것은 너무 많은 시간과 비용이 들어가게됩니다. 그러한 시간과 비용의 제약으로 인해 일부분만 조사를 하게되는데 이때 이 일부분의 유권자를

통계학에서는 표본(Sample)이라고하며 원래 알고 싶어했던 모집단 즉 모든 유권자를 모집단(poplulation)이라고 합니다. 이렇게 표본으로부터 모집단을 추측해보는 통계학을 추론 통계학(inferential statistics)이라고 하며 앞서 언급한 자료를 수집하고 정리 요약하는 통계학을 기술통계학(descriptive stastics)라고 합니다.

 수집된 자료를 분석하여 현재의 상태를 파악하고 미래의 현상을 예측하는 추론 통계학(descriptive stastics)을 통해 얻어진 결과는 항상 옳은 것이 아니며 어느 정도의 불확실성을 가지고 있어 그 불확실성의 정도를 확률을 사용하여 표현합니다.

 따라서 추론통계학을 공부하려면 확률에 대한 공부가 선행되어야 하기 때문에 앞으로 다룰 포스팅에서는 확률에 대해서도 어느정도 다루고자 합니다.

#통계학의 분류

 이러한 통계학은 크게 기술통계학(descriptive stastics), 추론통계학(inferential statistics)으로 나누어지지만

다시 추론통계학안에서 빈도론적 통계학과 베이즈 통계학으로 나누어집니다.

 이번 시리즈를 통해서 기술 통계학의 하나인 EDA(탐색적 자료분석), 확률, 확률분포, 추정, 가설검정, 분산분석, 상관분석, 회귀분석, 범주형 자료 분석, 시계열 자료의 분석, 비모수 통계, 데이터마이닝, 기계학습, 인공신경망 등

방대하게 다룰 생각입니다.

 이 모든 부분을 전부 R을 통해서 진행할 예정이며 중간중간 제가 공모전이나 개인적으로 진행해왔던 데이터분석 경 험을 통해 얻은 경험이나 지식등을 곁들이고자 합니다.

 그럼 다음 포스팅에서는 확률과 확률분포에 대해서 알아보도록 하겠습니다.

이번 포스팅도 읽어주셔서 감사하고 다음 포스팅때 더욱 유익한 내용으로 찾아뵙겠습니다.