[빅데이터 기초5] - 빅데이터 분석 방법론2 - 데이터마이닝(DataMining)과 머신러닝(기계학습 :ML)의 차이 그리고 딥러닝에 대해

-들어가며 

 

 지난 빅데이터 기초4 포스팅에서는 분석방법론중 하나인 통계 기법을 살펴보았는데요.

이번 포스팅에는 데이터마이닝과 머신러닝에 대해서 소개해드리고자 합니다.

데이터마이닝이던 머신러닝이던 결국 앞서 다뤘던 통계적인 내용들이 들어가 있으니 이 부분 참고하시길 바랍니다.

 

 

1. 전통적인 통계vs데이터마이닝vs머신러닝 (3가지 비교)

 각각에 대해서 설명을 드리기전에 이 3가지가 서로 비슷한 측면이 많기 때문에 헷갈려 하실 수 있는 부분이 많을 것이라 생각됩니다. 따라서 통계와 데이터 마이닝 그리고 머신러닝 이 3가지를 비교하면서 각각 개념을 잡아 보도록 하겠습니다.

 우선 데이터 마이닝도 마찬가지로 빅데이터로 인해서 갑자기 생겨난 분야가 아니고 원래 존재하던 분야로서

저장된, 방대한 양의 데이터안에서 자동적이고 체계적으로 통계적인 규칙이나 패턴을 찾아내는 파생기술을 데이터마이닝이라고 합니다.

 우선 앞선 포스팅에서 다뤘던 전통적인 통계는 세워진 모형이나 가설에 의거해 이를 검증하고 요약 보고하는데에 초점을 맞추고 있습니다. 통계는 결국 모집단에 대한 가설을 검증하는 것이 주목적이고 대부분의 통계 알고리즘은 선형성을 기반에 두고 있습니다.

 반면에 데이터마이닝의 목적은 예측입니다. 데이터 마이닝이라는 명칭에서 보이는 것처럼

실제 데이터들부터 의미있는 정보를 추출해내는 것이고 그러다보니 가설을 세워서 검증한다기보단

몰랐던 사실을 발견해낸다는점에서 차이가 있습니다. (이 몰랐던 사실들은 주로 패턴을 띄며 이러한 패턴은 미래 예측을 가능케합니다.)

 데이터 마이닝에 사용되는 다양한 기법들은 모형의 예측성과를 높이는데 전통적 통계보다 우수한 측면이 있습니다.

그렇다고하여 "데이터마이닝이 통계보다 더 좋은 기법이다, 우월한 기법이다"라고 말할 수는 없겠습니다.

왜냐면 전통적인 통계는 결국 모수를 설명하는 것이기 때문에 설명력관점에서는 통계가 더 효과적일 수 있기 때문에 그때 그때 상황에 적절한 방법론을 취사선택하는 것이 바람직합니다.

통게와 데이터 마이닝의 차이

데이터 마이닝과 머신러닝은 무엇이 다른가?

 사실 데이터마이닝이나 머신러닝이나 데이터의 패턴을 파악하는 알고리즘은 동일합니다.

그래서 "데이터마이닝이 머신러닝이다, 인공지능이다"라고 말씀하시는 분들도 있고 그렇게 저술한 책들도 있습니다. 다만 이 둘의 가장 큰 차이점이 존재하는데 그것은 바로 학습의 차이입니다.

머신러닝은 모델링된 데이터를 학습한다는 것이 바로 핵심입니다.

 모델링된 데이터라는 말이 잘이해가 안되실텐데요.

우선 데이터를 모델링을 하는 알고리즘이 있습니다. 대부분 지도학습, 비지도학습, 강화학습으로 나누어지는데요.

하나씩 차근차근 살펴보도록 하겠습니다.

*지도학습 데이터 모델링

 지도학습 알고리즘을 통해서 데이터를 모델링을 하는 예시를 들어 보자면

컴퓨터에게 사과 이미지 1천만장을 입력데이터로 주고 이건 사과야라고 "정답"데이터를 입력시켜줍니다. 또

파인애플이나 바나나 등과 같은 다른종류의 이미지를 입력데이터로 주고 이건 사과가 아니야라고 "오답"데이터를 입력시킵니다. 그러면 수많은 이미지들을 데이터마이닝에서 쓰였던 알고리즘을 통해 패턴을 찾아내 사과의 특징을 파악하고 그 특징을 가진것을 사과라고 학습하게되는 것을 '지도학습을 통한 머신러닝'이라고 볼 수 있습니다.

이러한 지도학습은 학습과정 중에 이건"사과야"라고 인간이 개입해야하므로, 즉 예측데이터(정답데이터)가 올바른지 확인해줘야 하므로 노동집약적이고 시간이 많이 걸리는 단점이 존재합니다.

 

*비지도학습 데이터 모델링

 비지도 학습은 지도학습과 달리 사과 이미지 1천만장을 입력데이터로 주고 그것을 사과야라고 "정답데이터"를 제공해주는게 아니라 정답을 가르쳐주지 않고 기계가 스스로 학습하도록 두는 겁니다.

 인간이 개입하지 않아도 데이터로부터 학습하여 스스로 사과의 패턴을 학습하고 결국 사과를 인식하게 되는 것이 바로 비지도 학습을 통한 머신러닝이라고 볼 수 있습니다. 이 모델링 방법은 데이터속에 정확히 어떤 의미가 숨겨져 있는지 모를 때 사용하는 방법으로서 초기에는 기대했던 결과를 얻지 못할 수 있으나 거꾸로 예상치 못한 결과를 발견해 낼 수 도 있습니다.

*강화학습 데이터 모델링

 강화 학습은 행동심리학에서 영감을 받아, 어떠한 환경 안에서 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동순서를 선택하는 방법입니다.

 에이전트라는 것이 존재하고 이 에이전트가 자신의 현재상태를 지각하고 행동을 하면

환경은 보상(reward)를 긍정적이든, 부정적이든 제공합니다. 그러면 에이전트에 누적된 보상을 최대로 만드는 정책(policy)를 찾으려는 것입니다.

강화학습 알고리즘

2. 인공지능(AI)vs머신러닝(ML)vs딥러닝(DL)

 위에서 말씀드린 머신러능은 인공지능의 한분야입니다. 그리고 딥러닝은 머신러닝의 한분야이고요.

이말을 그림으로 표현하면 다음과 같겠네요.

 예를 들면, 화제가 되었던 구글의 알파고는 바둑이라는 단 한분야에서 완벽한 학습을 통해 이세돌 9단을 압도한 것을 기억하실 겁니다. 이렇듯 한 분야의 완벽한 학습을 위해서 인간의 뇌에 있는 뉴런과 유사한 입출력 계층을 활용하여 데이터를 학습시키는 머신러닝 기법을 딥러닝이라고 하는것이고 따라서 알파고는 딥러닝이 적용된 인공지능의 한종류라고 볼 수 있습니다.

 다만 알파고는 실제 물리세계를 인식하는 센서나 로봇이 없었기에 알파고가 두는 바둑돌을 인간이 대신 바둑판위에 둔 점을 기억하실 겁니다. 이렇듯 실제 물리세계를 인식하고 인식한 것을 자신이 학습한 것과 비교하여 적절한 조치를 취하는 이 광대한 범위가 인공지능이고 학습에 초점이 맞춰진게 머신러닝이며 그 학습방법이 인간의 뇌를 모방한 것을 딥러닝이라고 합니다.

이로써 인공지능, 머신러닝, 딥러닝의 차이점을 명확하게 이해하셨으리라 생각합니다.

3. 데이터 마이닝(DM) & 머신 러닝(ML)의 알고리즘

 위 이미지에서 볼 수 있다시피 데이터 마이닝과 머신러닝에서 사용되는 알고리즘들인데요.

이 모든 것을 다 살펴보기는 힘들고 이들 중 Apriori에 대해서만 알아보고 이러한 알고리즘들이 있고 알고리즘들은 이런식으로 되어있구나 정도를 파악하시면 될 것 같습니다.

 이제 알고리즘에 대한 내용을 다루는 것은 기초이상이라고 생각하기 때문에 빅데이터 기초 시리즈에서 다루지 않고

데이터마이닝&머신러닝 시리즈에서 다루도록 하겠습니다.

- 연관규칙(또는 장바구니분석) : Apriori 알고리즘

 경영학에서는 장바구니 분석이라고도 알려져 있는 이 연관규칙분석이란

어떤 두 아이템 집합이 번번히 발생하는가를 알려주는 일련의 규칙들을 생성하는 알고리즘입니다.

 개념은 지지도(sup), 신뢰도(confidence),향상도(lift) 이 3가지입니다.

지지도(Support) : 한 거래 항목에 특정 항목집단이 출현된 횟수를 의미합니다.

신뢰도(Confidence) : A를 포함하는 경우 중, B또한 포함할 경우의 확률 (조건부확률)

 향상도 : A가 주어지지 않을 때, B의 확률에 비해,

A가 주어졌을 때, B의 증가비율을 의미합니다.

Apriori 알고리즘의 분석 순서

1. 최소 지지도를 설정합니다.(support)

2. 개별 품목 중에서 최소지지도를 넘는 모든 품목을 찾습니다.

3. 위에서 찾은 개별 품목만을 이용해 최소 지지도를 넘는 2가지 품목을 찾습니다.

4. 위의 두 절차에서 찾은 품목 집합을 결함하여 최소 지지도를 넘는 3가지 품목 집합을 찾아줍니다.

5. 1-4를 반복적으로 수행에 최소지지도가 넘는 반발품목 집합을 찾습니다.

 위 그림에서 단순하게 B,C,E를 맥주,땅콩,기저귀 라고 치환해본다면

4개의 거래데이터에서 0.2의 sup을 설정했 을때 맥주,땅콩,기저귀를 한번에 구매하는 경우의

지지도와 신뢰도 및 향상도를 통해서 3개 제품의 관련도를 알 수 있게됩니다.

 

 

이 apriori 알고리즘의 활용한 실제 사례를 볼 수있는데요. 아래의 내용을 보겠습니다.

 수요일 저녁, 기저귀와 맥주 매출의 상관 관계

  1990년대 중반 한 대형 마트에서 있었던 일이다. 매주 수요일 저녁, 기저귀와 맥주 매출이 동반 상승하는 현상이 반복됐다. 이 같은 사실은 마트 판매관리부장이 어느 날 우연히 발견했다. 그는 기저귀와 맥주 간 기묘한 상관관계를 추적하기 위해 기저귀 진열대 위치를 일부러 맥주 진열대 가까운 곳으로 바꿨다. 그랬더니 놀랍게도 다음 달 기저귀와 맥주 모두 매출이 전달의 5배로 뛰었다.

 일반적으로 유아를 키우는 가정은 주말에 1주일치 기저귀 한 팩을 구입한다. 하지만 종종 기저귀가 예상보다 빨리 소진되고, 그럴 때마다 (한 주의 절반가량이 지난) 수요일 오후 아내는 직장에 있는 남편에게 전화를 걸어 “기저귀 한 팩만 사 오라”고 부탁한다. 전화를 받은 남편은 오후 6시 퇴근 직후 차를 몰고 마트로 향한다. 기저귀를 사고 돌아 나오던 그는 생각한다. ‘기왕 힘들여 여기까지 왔는데 맥주나 한 팩 사 가지, 뭐!’

실제 월마트에서 있었던 이 사실이 세간에 알려지면서 대형 마트를 비롯한 유통업계를 중심으로 빅데이터에 대한 관심이 급격히 높아졌다. 수많은 품목 중 ‘매출 쌍끌이’ 역할을 해줄 기저귀와 맥주 같은 조합만 찾아낸다면 한 번쯤 시도해볼 만한 일이란 데 눈을 뜬 것이다.

 

(출처)https://news.samsung.com/kr/%EC%A0%84%EB%AC%B8%EA%B0%80-%EC%B9%BC%EB%9F%BC-%EB%8B%B9%EC%8B%A0%EC%9D%B4-%EC%95%8C%EA%B3%A0-%EC%9E%88%EB%8A%94-%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%8A%94-%ED%8B%80%EB%A0%B8

 

  위 글의 내용에서 볼 수 있듯이 데이터가 이런식으로 활용될 수 있구나 하고 생각이 드실겁니다.

이러한 사례말고도 정말 다양한 데이터 활용사례가 많습니다.

  많은 사례들을 보는것도 하나의 좋은 공부라고 생각합니다. 많은 사례들을 인터넷에서 접해보시는게 좋을 것 같은데 당연히 귀찮으신분들을 위해서 제가 학교에서 레포트 제출을 위해 작성했던 사례 파일첨부할테니 관심있으신분들은 사례

한 두개씩 읽어보시는 것도 좋을 것 같습니다.

 

빅데이터+활용사례+보고서+[최종].hwp
1.87MB
중간+report.docx
1.68MB

 

 이로써 빅데이터 기초5 포스팅이 끝나면서 빅데이터 기초 시리즈가 끝나게 되었습니다.

 

 이제 빅데이터에 대한 전반적인 기초지식을 쓰윽 둘러보았다고 할 수 있을 것 같습니다.

사실 빅데이터와 관련해서 배울 것은 정말 많습니다.

 데이터를 수집하는 부분에 있어서 SQL, DB는 기본소양이며 더 나아간다면 NoSQL도 공부해야할 것이고

수집한 빅데이터를 저장하기 위해 최적화된 Hadoop도 공부해야하고 이 하둡은 대부분 리눅스라는 OS환경에서 돌아가기 때문에 리눅스도 공부할 필요가 있습니다.

 

  또 이렇게 저장된 데이터를 분석하기 위해서는 통계학적인 소양을 갖춰야하니 통계학공부,

인공지능에 관심이 있다면 머신러닝의 다양한 알고리즘의 원리를(Apriori마냥) 공부해야 할 것이며

분석한 것을 잘표현하기 위해서는 데이터 시각화에 대한 부분도 공부할 필요가 있습니다.

 정말 공부할게 많은 융합학문입니다. 물론 모두다 잘할 수는 없기에

이러한 빅데이터 산업의 종사자들은 직군이 크게 3가지로 나뉘게 됩니다.

 

  데이터 사이언티스트, 데이터 애널리티스트, 데이터 엔지니어 이렇게 3가지 정도이고

여기서 이제 추가적으로 인공지능이라는 분야가 있고 이 인공지능쪽은 데이터 사이언티스트와 엔지니어의 소양이 필요한 것으로 보입니다.