[책] 좋은 선택 나쁜 선택

숫자는 거짓말을 하지 않는다. 하지만 거짓말쟁이들은 숫자를 이용할 궁리를 한다.(Figures don’t lie, but liars can figure.)

책에서 인용된 구절 중 가장 마음에 들었던 구절이다. 데이터는 중간에 왜곡을 하지 않는다. 동일한 입력에 대해서 동일한 출력결과를 보장한다. 왜곡은 데이터를 활용하는 사람에 의해 발생한다.

최근 들어 데이터가 흥하는 세상이 되면서 여기저게 AI, 빅데이터를 인용하는 사례가 빈번히 보이고 데이터에 기반한 의사결정이 중요시되고 있다. 수치만큼 객관성을 지닌 근거는 없다는 이유로 이러한 움직임은 더 가속화되고 있다. 하지만 앞서 언급한 것처럼 데이터를 활용하는 사람이 특정한 의도를 가지게 되면 객관성을 사라지게 된다. 이 시점에서 데이터를 읽을 수 있는 능력이 없다면 데이터를 전달한 사람의 의도는 스리슬쩍 비판없이 수용될 것이다.

그리고 앞으로 이런 경우는 더욱 발생할 수 있기 때문에 우리는 데이터를 바르게 읽는 방법에 대해서 고민할 필요가 있다. 그래서 필자는 최근에 “데이터 읽기의 기술”부터 시작해서 데이터를 읽는 방법의 책을 골라서 읽기 시작하고 있다. 이 책도 그런 책 중의 하나이다.

이 책은 데이터 바르게 읽기에 대한 개론 입문서의 느낌이 강한 책으로 저자가 수학과 배경의 개발자 출신으로 통계학에서 볼 법한 기술적인 부분에 초점을 맞추고 있는 것이 이전에 읽었던 “데이터 읽기의 기술”과 다른 점이었다.

이 책은 통계학에서 평균부터 시작해서 분포, 마지막으로 검정에 대한 부분까지 통계학 개론에서 다루는 내용의 큰 줄기를 스토리텔링하듯이 설명을 잘 해주어서 작년에 배운 통계학의 기본을 한번 깊지 않은 수준에서 훑어볼 수 있어 매우 좋았다.

후반부의 P-Hacking가 이 책에서 가장 인상깊은 부분이었다. 개론 성격의 책이다보니 깊게 다루지는 않았지만, 의외로 많은 부서에서 P-Value를 의사결정의 절대적 수치인것마냥 사용하는 부분이 꽤 마음에 걸렸던(?) 입장에서 반가운 부분이었다.

저자의 집필스타일인 건지는 몰라도 약간 설명이 딱딱하거나 생략되어 있는 것 같은 느낌이 읽으면서 좀 느껴졌기 때문에 아예 통계학에 대한 지식이 없는 경우 읽으면서 곱씹어야 하는 부분이 좀 있을 수 있겠다 싶었지만 지식이 있는 경우라면 200페이지도 안되는 분량을 한달음에 읽을 수 있겠다.

정리하자면, “데이터 읽기의 기술”이 실무에서 분석을 하면서 발생하는 일을 다룬다면 이 책은 굳이 분석을 하는 입장이 아니어도 데이터 자체를 기술적으로 어떻게 보는게 객관성을 유지할 수 있는지에 대한 내용을 다루고 있었다. 따라서 데이터 읽기의 기술을 읽고 이 책을 읽으면 분석에서 좋은 입문서가 되지 않을까 싶다.

Read more

DataFrame은 Pandera로, 모델은 Pydantic으로 데이터를 검증한다.

DataFrame은 Pandera로, 모델은 Pydantic으로 데이터를 검증한다.

Pandera: 데이터프레임 검증에 최적화된 도구 주요 장점 * Pandas와 통합: Pandas 데이터프레임에 대해 스키마 기반 검증을 수행합니다. * 유연한 검증 조건: 열 데이터 타입, 값 범위, Null 여부 등 다양한 검증 조건을 정의할 수 있습니다. * 명확한 오류 메시지: 스키마 불일치에 대한 명확한 오류 메시지를 제공합니다. 단점 * 대용량 데이터 검증에서는 속도가 느릴 수

Tobit Regression은 Censored Data에 적합한 Regression이다.

Tobit Regression은 Censored Data에 적합한 Regression이다.

Tobit Regression * Tobit 회귀(Tobit Regression)는 종속 변수가 특정 값에서 절단(Censored)된 상황에서 데이터를 분석하기 위해 사용되는 통계 기법입니다. * James Tobin이 처음 제안한 이 모델은 경제학과 사회과학 분야에서 자주 사용되며, 일반 선형 회귀로는 설명할 수 없는 상황에서 효과적으로 적용할 수 있습니다. Tobit Regression 수식 1. 관측된 종속 변수