[빅데이터 기초-번외] 앞으로 데이터 분석을 시작하려는 사람을 위한 책

안녕하세요.

이번 포스팅은 이전에 작성한 빅데이터 기초1~3 시리즈 포스팅글과 관련해서

도움이 될만한 책을 같이 공유해봤으면 좋겠다는 생각에

구도 다쿠야라는 분이 지은 '앞으로 데이터 분석을 시작하려는 사람을 위한책'에 대한

독서 정리글을 작성해보고자 합니다.

"The data never lies" (데이터는 거짓말을 하지 않는다)

미국연방정부 의료IT 정책 사무실 국장 파자드 모스타샤리(Fazad Mosta-shari)가 입에 달고 다니던 말이라고 합니다.

책에 내용에 의하면 올바른 수단으로 수집하여 가공되지 않은 데이터(raw data)는 절대 거짓말을 하지않고 그런 데이터를 바탕으로 올바르게 도출한 분석 결과는 기업이나 여타 조직이 현재 상황을 파악하도록 도울 뿐만 아니라 앞으로 나아가야할 방향성을 제시해준다고 설명합니다.

(raw data라고 하면 보통 원천데이터 : 말그대로 가공하지 않은 원본데이터를 의미하며 back데이터라고도합니다)

이러한 데이터 분석의 가장 큰 효과는 '의사 결정 프로세스의 최적화'이며, 한정된 경영 자원이나 정책 자원을 효율적으로 사용할 수 있도록 의사 결정을 지원하는 것이 데이터 분석의 진정한 가치임을 알 수 있었습니다.

그리고 이 책에서는 빅데이터, 데이터분석에 대해서 오해하고 있는 사람들에게 경고하고있습니다.

데이터 분석은 데이터가 있고 해석 기반이 있으면 알아서 정답이 튀어나오는 마법이 아니며

분석 담당자의 선입견이 들어가거나 업계 동향 또는 산업지식 등의 주변 정보가 부족하면 데이터를 잘못 해석하여 틀린 결론을 이끌어낼 위험성도 있다는 것을 말이죠.

또한 가설에서 올바른 모델을 구축했더라도 그것이 항상 실제로 도입되서 문제해결을 매끄럽게 해결해줄 수 있는 것도 아님을

가령 데이터 분석을 통해서 고객 이탈 방지 모델을 만들었더라 하더라도 최종적으로 고객의 이탈을 막는 주체는 영업 담당자임을 설명하고 있습니다.

여기까지는 서두 부분에 해당하는 내용이며 책의 내용중 제가 주요하게 읽었던 부분을 간추려서 글을 작성하도록 하겠습니다.

제가 주요하게 읽었던 내용들의 리스트입니다.

1. 실패하지 않는 데이터 분석의 요건

2. 이것만큼은 알아두자 기본적인 통계지식

3. 일단 해보자가 최악인 이유

1. 실패하지 않는 데이터 분석의 요건

책에서는 국내외 불문하고 데이터 분석을 통해 일정 수준 이상의 성과를 올리는 기업의 공통적인 요소들을 소개했습니다. 그 요소들은 다음과 같습니다.

① 분석 대상의 데이터를 가지고 있으며 분석 기반이 확립되어 있다.

② 데이터 분석의 목적과 현재의 경영 과제를 이해하고 있다

③ 실행팀이 첨단 기술을 획득하려는 의욕으로 가득하며, IT 뿐만 아니라 업계 전문지식이나 적용해야 할 수리 통계,

기계 학습을 올바르게 인식하고 있다.

④ 경영층이 리더십을 갖고 프로젝트를 지원하고 있다

⑤ 시작한 일은 반드시 완수한다는 열정과 기획 발상력이 풍부한 인재를 모아 팀 개인이 아닌 조직의 능력을 최대화

시키고 있다.

저자의 경험상 데이터 분석 프로젝트가 실패하는 이유의 대부분은 위 다섯 가지 요소 중 하나이상이 부족함에도 이를 무시하거나 가볍게 생각하여 프로젝트를 강행했을 때 실패한다고 보았습니다.

2. 이것만큼은 알아두자 기본적인 통계지식

책에서는 평균, 분산, 표준편차, 그래프 보는 방법에 대해서도 다루고 있지만 그 부분에 대해서는 적지 않고

제가 좀 더 에너지를 쏟아서 본 부분에 대해서만 작성하도록 하겠습니다.

(궁금하신분들은 책사서 보시라능 ^^.. ㅎ)

#표준편차를 비즈니스에 적용할 수 있는 것, 하나!

슈하트 관리도

월간 매출의 비교추이라는 제목처럼 영업 담당자 A,B,C 영업 매출 추이를 나타내는 꺾은선 그래프입니다.

또 꺾은선 그래프 위아래에 각각 선이 평행하게 그려져 있는데

위에 있는 선을 상방관리한계(Upper Control Limit)

아래 있는 선을 하방관리한계(Lower Control Limit) 라고 하며

UCL, LCL은 각각 평균에서 3표준편차만큼 떨어져있음을 의미합니다.

위 그래프를 해석하자면 C 담당자는 6개월 째에 LCL을 밑돌고 있었음을 알 수 있는데

C에게 무슨 문제에 직면하여 매출에 지장이 생겼다고 의심해볼만하다는 의미이며

A는 22개월째에 UDL을 윗도는 영업실적을 올린 것으로 보아 우연이라고 생각하기엔 힘든 공헌이니

평가를 매기기전에 신중하게 A와 C모두 인과관계를 조사가 필요함을 말합니다.

이 그림은 사람뿐만 아니라 제조업에서 재고등을 관리할 때에도 사용된다고합니다.

#표준편차를 비즈니스에 적용할 수 있는 것, 둘!

#표준편차로 과잉발주를 방지하기

과잉발주로 인하여 재고가 쌓이게 되면 재고를 관리하기 위해서 추가적인 비용이 들어가게 되므로 손해가 발생할 수 있습니다. 그래서 경영자들은 항상 재고량에 세심한 주의를 기울여야 합니다.

하지만 시장의 수요로 인해 금방 재고가 바닥나버리는 인기상품의 경우 다른 경쟁업체보다 한개라도 더 재고를 확보하려고 할텐데요.

과거에는 이러한 양측의 상반된 심리를 발주 담당자의 경험과 감에 의존해 절충하는 경향이 컸다고합니다.

양측의 이해와 수요가 잘 맞아 떨어진다면 오랜경험과 장인 수준의 감으로 발주 업무를 잘 처리할 수 있겠지만,

시장의 평가가 뒤집혀 그때 까지 잘팔리던 상품이 갑자기 찬밥신세로 전락하는 경우가 있습니다.

그러면 그전까지 한개라도 더 재고를 확보하려고 열을 올리던 업주는 이제 남아도는 재고를 처리하기 위해

원가도 안나오는 가격에 재고를 처리해야 할지도 모릅니다.

슈하트 관리도는 이러한 재고 리스크를 피하고 싶을 때에도 활용이 가능합니다.

저자는 다소 데이터 분석에 지식이 있는 사람이라면 재고의 최적화에는 예측 모델이 필요하다고 생각할 지 모릅니다. 그러나 확실한 판매정보를 알 수 있다면 예측모델까지도 필요로 하지않고 기초통계량을 이용한 슈하트 관리도로 추천 발주량을 정확히 결정할 수 있습니다.

이렇듯 표준편차는 단순한 개념이라서 간과되기 쉽지만, 강력한 통계도구임을 알 수 있었습니다.

#변동계수로 서로 다른 속성을 비교한다.

변동계수도 표쥰편차와 비슷하게 자료(관측값)들의 들쭉날쭉함을 보기 위한 통계량입니다.

다만 표준편차와 달리 속성이 다른 두 자료(관측값)의 비교를 할때 효과적인 통계량이라고 책에서 설명해주고 있습니다.

책에 있는 예시로서

법인을 대상으로 한 대형 투자안건을 취급하는 영업부와

개인을 대상으로한 소규모 안건을 다루는 영업부의 실적을 비교할 때 표준편차를 사용하는 것은 유용한 방법이 아닙니다. 단순히 금액만으로 비교하면 개인을 대상으로 하는 소비재보다 대형 투자 안건을 취급하는 쪽이 평균값이나 표준편차가 커지기 때문에 이와 같이 데이터의 규모가 현저하게 다르거나 측정 척도가 다르면 표준편차로는 분석 할 수 없습니다.

반대로 속성은 같지만 실태가 다르기 때문에 표준편차 비교가 적합하지 않은 경우도 있는데 똑같은 프랜차이즈 편의점 중에서 지방의 도로변에 위치한 점포와 도심 역의 주변에 위치한 점포의 매출을 비교하는 경우입니다.

지역성이나 상권, 입지 같은 조건에 따라 매출 규모가 크게 좌우될 경우, "변동계수"를 이용하면 조건이 크게 다른 그룹간에도 비교를 할 수 있다는 것이 요점입니다.

변동계수를 구하는 식은 다음과 같습니다.

변동 계수 = 표준편차/평균

표준편차와 변동계수의 특징은 다음과 같습니다.

표준 편차 : 평균에서의 들쭉날쭉함을 보기 위한 지표

변동 계수 : 상대적인 들쭉날쭉함을 보기 위한 지표

결국 정리하자면 변동계수는 대상 데이터의 단위나 척도, 혹은 평균값이 크게 다른 그룹끼리 비교 하고 싶을 때

일정한 기준에 따른 비교를 해줄 수 있게 해준다는 강력한 통계량이라는 것임을 알 수 있었습니다.

3. 일단 해보자가 최악인 이유

국내에서도 데이터 분석에 관심을 보이는 기업이 늘어남에 따라 업종과 매출 규모를 불문하고

너도 나도 많은 기업들이 분석을 의로하고 있는데, 저자가 일하는 데이터 분석팀이 의뢰 자체를 재고해 볼 것을 요청하는 경우가 있다고 합니다.

기업에 인재나 예산이 부족하다든가 보유 데이터가 불완전한 탓에 분석을 할 자신이 없을 때가 아니라

"예산도 있고 데이터도 있소 그러니까 일단 뭔가 찾아내 주시오." 라는 요청이 왔을 때라고 합니다.

"물론 대규모 데이터를 '일단' 분석하다 보면 데이터에서 어떤 상관관계나 인과관계가 발견되어 결과적으로 모델링이 가능할 때도 있다고는 하지만 목적도 도착점도 정하지 않은 상태에서 무작정 방대한 시간과 돈을 들여 데이터를 사전 처리하고 해석해 이끌어낸 모델이 경영 과제를 해결하는 데 아무런 도움도 되지 못하는 일은 결코 드물이 않다" 라고 말하며 데이터 분석에 있어서는 "일단 해보자"라는 마인드는 버려야 할 마인드라고 경고하고 있습니다.

저자는 데이터 분석을 할 때를 로켓 발사에 비유하며 설명해주고 있습니다.

"데이터를 분석할 때는 목적과 도착점을 설정하고 그 도착점을 지향하기에

충분한 경영상황인지, 업무과제가 있는지, 데이터와 처리기반이 존재하는지 확인하는 것이 중요하다."

라는 문장을 아래 표와 함께 보시면 좋겠습니다.

로켓

데이터 분석 프로젝트

발사대

데이터 분석을 실시하기 위한 기본적인 요소

착지점

경영 과제의 결정(도착점)

발사 책임자

프로젝트를 승인하고 비호하는 경영 총수

선장

통계의 기초를 이해한 프로젝트 리더

승무원

데이터 분석팀을 구성하는 IT 엔지니어, 해석 담당자, 기획 입안자 등

이어 저자의 설명을 추가하면

이 가운테 특히 중요한 것은 '발사대'와 '착지점'이라 했고

발사대 즉, 데이터 분석을 실시하기 위한 기본적인 요소는

ⓐ 목적(기획구상)의 입안

ⓑ 데이터 분석을 통해 해결해야 할 과제의 인식과 우선순위 결정

ⓒ 구조화 데이터, 센서 정보나 로그 데이터 등을 취득할 IT 기반

ⓓ 데이터를 분석하기 위한 소프트웨어 및 하드웨어 환경

ⓔ 과제 해결을 향한 리더십과 열정

이러한 요소들이 갖춰져야 비로서 데이터 분석의 출발대가 완성된 것이라고 설명하고 있습니다.

다만, 데이터 분석을 처음 시도하는 기업에 이 여섯가지 요소를 갖추기는 힘들겠지만 반드시 갖춰야 할 요소인

a목적 입안, b우선순위 결정, e과제 해결을 위한 리더십과 열정은 꼭 갖춰야 한다고 말합니다.

여기까지 저자 구도 타쿠야라는 분의 "앞으로 데이터 분석을 시작하려는 사람을 위한 책"에 대한 책 Review를 마치도록 하겠습니다. 분명 데이터 분석을 공부하려는 분들에게 도움이 되는 책이긴 하지만 이미 전문적인 공부중이신 분들에게는 다소 깊이가 없는 내용이라서 도서관에서 빌려서 보시는게 좋을 것 같습니다.

다만 빅데이터에 이제 막 공부를 시작하려는 분들에게는 직접 구매하셔서 두고두고 보는 것도 괜찮을 것 같습니다.

이상 포스팅을 마치며 추가적으로 드릴 말씀은 "글이 이런점에서 개선되었으면 좋겠다"

아니면 "어떠어떠한 내용이 더 궁금하다", "이러한 부분이 부족한거 같다"라는 피드백을 남겨 주시면

글을 개선하는데 큰 도움이 될 것 같습니다.

모쪼록 공부하는분들에게 도움이 되었으면 좋겠습니다.