[책] 좋은 선택 나쁜 선택

숫자는 거짓말을 하지 않는다. 하지만 거짓말쟁이들은 숫자를 이용할 궁리를 한다.(Figures don’t lie, but liars can figure.)

책에서 인용된 구절 중 가장 마음에 들었던 구절이다. 데이터는 중간에 왜곡을 하지 않는다. 동일한 입력에 대해서 동일한 출력결과를 보장한다. 왜곡은 데이터를 활용하는 사람에 의해 발생한다.

최근 들어 데이터가 흥하는 세상이 되면서 여기저게 AI, 빅데이터를 인용하는 사례가 빈번히 보이고 데이터에 기반한 의사결정이 중요시되고 있다. 수치만큼 객관성을 지닌 근거는 없다는 이유로 이러한 움직임은 더 가속화되고 있다. 하지만 앞서 언급한 것처럼 데이터를 활용하는 사람이 특정한 의도를 가지게 되면 객관성을 사라지게 된다. 이 시점에서 데이터를 읽을 수 있는 능력이 없다면 데이터를 전달한 사람의 의도는 스리슬쩍 비판없이 수용될 것이다.

그리고 앞으로 이런 경우는 더욱 발생할 수 있기 때문에 우리는 데이터를 바르게 읽는 방법에 대해서 고민할 필요가 있다. 그래서 필자는 최근에 “데이터 읽기의 기술”부터 시작해서 데이터를 읽는 방법의 책을 골라서 읽기 시작하고 있다. 이 책도 그런 책 중의 하나이다.

이 책은 데이터 바르게 읽기에 대한 개론 입문서의 느낌이 강한 책으로 저자가 수학과 배경의 개발자 출신으로 통계학에서 볼 법한 기술적인 부분에 초점을 맞추고 있는 것이 이전에 읽었던 “데이터 읽기의 기술”과 다른 점이었다.

이 책은 통계학에서 평균부터 시작해서 분포, 마지막으로 검정에 대한 부분까지 통계학 개론에서 다루는 내용의 큰 줄기를 스토리텔링하듯이 설명을 잘 해주어서 작년에 배운 통계학의 기본을 한번 깊지 않은 수준에서 훑어볼 수 있어 매우 좋았다.

후반부의 P-Hacking가 이 책에서 가장 인상깊은 부분이었다. 개론 성격의 책이다보니 깊게 다루지는 않았지만, 의외로 많은 부서에서 P-Value를 의사결정의 절대적 수치인것마냥 사용하는 부분이 꽤 마음에 걸렸던(?) 입장에서 반가운 부분이었다.

저자의 집필스타일인 건지는 몰라도 약간 설명이 딱딱하거나 생략되어 있는 것 같은 느낌이 읽으면서 좀 느껴졌기 때문에 아예 통계학에 대한 지식이 없는 경우 읽으면서 곱씹어야 하는 부분이 좀 있을 수 있겠다 싶었지만 지식이 있는 경우라면 200페이지도 안되는 분량을 한달음에 읽을 수 있겠다.

정리하자면, “데이터 읽기의 기술”이 실무에서 분석을 하면서 발생하는 일을 다룬다면 이 책은 굳이 분석을 하는 입장이 아니어도 데이터 자체를 기술적으로 어떻게 보는게 객관성을 유지할 수 있는지에 대한 내용을 다루고 있었다. 따라서 데이터 읽기의 기술을 읽고 이 책을 읽으면 분석에서 좋은 입문서가 되지 않을까 싶다.