[책] 데이터분석의 힘- 데이터에서 전략까지.

왜 읽었는가

요즘 데이터 분석을 하면 많은 사람들이 머신러닝, 딥러닝 등의 화려한 테크닉을 떠오르는 편이지만 데이터분석가로 살다보면 사실 이러한 기술에 대한 질문을 받는 경우는 매우 드문편이다. 오히려 지표 상의 어떤 변화가 생겼는데 이에 대한 원인이 무엇인지 파악하는 경우가 업무의 대부분이다.

다시 말해서 인과추론을 해야 하는 경우가 상당히 많다. 마케팅, 사업 등 다양한 부서들은 다양한 이유를 들고 각 부서의 공적(?)을 말하지만 들어보면 대부분 상관관계와 인과관계를 헷갈려 하거나 중간에 다른 변수가 개입했음에도 이를 무시하고 하는 경우가 많다. (고등학교 때 인과관계 <> 상관관계라는 것을 끊임없이 들었을텐데 이렇다.)

그렇다면 어떻게 인과추론을 해야할까. 이 질문에 들어서는 순간 필자를 비롯해서 많은 사람들은 숨이 턱 막히게 된다. 왜 그럴까? 이유는 너무 당연하다. 모르기 때문이다. 이번에 읽은 데이터 분석의 힘은 “무엇을 해야 하는가”에 대한 가벼운 개론서이다. 즉 인과추론에 대해서 수학없이 다양한 사례로 설명을 해준다.

책으로 돌아가서 그러면 어떠한 분석방법을 써야할까?

최선의 데이터 분석방법 RCT

이 책에서 말하는 첫번째 방법은 바로 RCT(Randomized Controlled Trail)이다. A/B 테스트라고도 불린다. 전체 모집단에서 임의추출을 시행할 때 무작위로 두 표본집단을 추출해서 동질성을 확보한 이후(개입집단, 비교집단)을 개입집단에만 실험을 진행해보는 것이다. 이 때 두 집단이 동일함을 설명하기 위해서 평균의 차이가 없는지를 확인하는 과정을 거친다. 이 과정에서 개입집단에 대한 개입이 비교집단에 파급효과를 일으키는 경우도 반드시 파악해야 한다. 다만 이러한 실험을 하려면 노력과 이에 따른 비용이 든다. 예를 들어 프로모션을 가지고 A/B 테스틀 한다고 할 때 비교집단에게는 절대로 프로모션이 노출되지 않도록 시스템을 개발하고 사전에 유관부서와 커뮤니케이션이 들어간다. 그런데 아무 결과물이 없다면, 꽤 리스크이다.

급격한 변화의 경계선을 찾는 RD 디자인

자녀를 가지거나, 사회생활을 시작하게 되면 생계비용이 급격하게 증가한다. (약간 억지가 있지만)  X축을 나이, Y축을 생계비용이라고 본다면 이렇게 특정 연령에 도달하게 되면 평균적으로 생계비가 오르는 경계시점을 찾아낼 수 있다. RD(Regression Discontinuity) Design은 경계선을 기준으로 특정 요인이 비연속적으로 바뀌는 부분에 주목을 한다. 물론 다른 요인은 변화해야 하지 않는다는 전제조건이 충족되어야 한다. 하지만 이 방법은 경계선을 보이는 요인이 원인이라는 근거는 말할 수 있는데 반해 이를 입증하기는 어렵다. RCT와 비교할 때 가장 큰 약점이다. 아울러 경계선과 멀리 떨어져 있는 데이터의 인과관계는 말하기가 어렵다.

계단식 변화가 있는 곳엔 집군분석

경계선이 매우 많아서 여러 집단으로 분리해서 분석이 가능하다. 하지만 RD 디자인과 동일하게 근거는 말할 수 있어도 입증하기는 어렵다. 그리고 이러한 계단식 변화에 반응하는 집단이 아닌 경우 분석을 진행하기 어렵다. 따라서 전체집단을 대상으로 분석할 수 있는 RCT에 비해서는 유용성이 다소 떨어지는 편이다. 항상 반드시 그렇지는 않지만, 신규와 VIP회원에 대해서 특정 주문금액 이상이 넘어가면 주문패턴이 변하는 부분들에 대해서 적용할 수 있는 분석이 아닌가 싶다.

시간의 흐름에 따른 패널 데이터 분석

복수의 집단에 대해서 복수의 기간에 걸쳐 데이터를 수할 수 있을 때 사용하는 분석 방법으로 모든 추세가 기간동안 동일하게 유지될 때(평행트랜드) 사용할 수 있다. 이중차분 (Difference in Difference)을 사용해서 집단간의 차이, 그리고 동일 집단 내 시간에 따른 차이를 제거해서 비교할 수 있는 방법이다.  꽤 간단한 방식으로 RCT만큼이나 쉽게 전체집단에 바로 적응할 수 있다. 하지만 앞서 언급한 것처럼 평행트랜드는 현실에서는 쉽게 적용하기 어려운 부분이 단점으로 작용할 수 있다.

내 생각

위 네가지의 분석과 함게 다양한 사례를 제시한다. 이 책의 백미는 바로 사례라고 생각한다. 자세하게 기입하지는 않아도 실생활의 문제를 어떻게 인과관계에 맞추어 풀었는지 보여주었기 때문이다. 마지막으로 저자도 밝혔지만 정말  문제는 외적타당성이다. 동일한 변수를 놓고 다른 상황에서 재현가능하도록 실험하는 것은 여전히 숙제이다. 하지만 위 내용 정도만으로도 비즈니스에서 빠른 의사결정을 하게 하는데는 부족함이 없었다. 의사결정의 규모나 리스크가 커진다면 조금 더 치밀해야겠지만 말이다.

(정말) 마지막으로 읽는 내내 수식의 부족함이 아쉬었는데 뒤에 수식도 간단하게나마 정리가 되어 있고 또한 이어서 읽으면 좋을 책도 있었던 부분은 마지막 갈증을 풀어주는데 매우 좋았던 부분이었다.