[책] How to Measure Anything 2부 - 측정의 정의를 명확하게 하기, 그리고 확률 보정하기

측정 문제 명확화

  • 다음 질문에 대한 답을 생각해볼 필요가 있습니다
  • 이 측정이 영향을 미치 의사결정 내용은 무엇입니까?
  • 관찰을 통해 측정하고자 하는 대상을 어떻게 정의할 수 있습니까?
  • 그 측정 대상이 정확히 어떻게 의사결정에 영향을 미칩니까?
  • 얼마나 많이 알고 있습니까?
  • 추가 정보의 가치가 얼마나 됩니까?
  • 불확실성과 위험의 의미
  • 불확실성: 확실하지 않으나 일어날 확률이 존재하는 것, 결과/상태/값을 모르는 상황 → 결과에 대한 확률을 부여하기 어려움
  • 위험: 결과에 대한 확률이 존재하는 상황 → 정량화된 확률과 손실 계산 가능

“고객의 충성도”를 높이자라는 목표가 있다고 가정합시다. 이 때 고객의 충성도에 대한 정의를 명확하게 하지 않으면 기본적으로 모든 부서의 업무와 이를 연결시키는 것을 어려울 것입니다. 충성도가 재주문의 횟수인지, 아니면 서비스 내 체류시간인지에 대한 정리가 매우 중요합니다.

나아가 “고객의 충성도”가 의사결정에 쓰일 때, 의사결정에 주는 가치를 판단할 수 있다면 앞서 언급한 부서간의 정의 통일이 주는 가치를 인지하고 업무로서 진행할지 여부도 판단할 수 있게 됩니다.

따라서 정의를 명확히하는 것은 매우 중요합니다. 그리고 이를 확장해서 우리가 확실하지 않은 사실 중 측정가능한 부분(위험)을 측정해서 정보를 계산할 수 있을 때 이게 의사결정에 어떠한 영향을 미칠지 판단할 수 있다면 측정할 수 있는 데이터의 범위는 상당히 넓어질 수 있게 됩니다.

확률 보정

  • 생각보다 많은 사람들이 본인이 예측할 수 있는 범위를 넘어서 계산하고, 또 생각보다 많은 사람들이 본인이 예측할 수 있는 범위를 과소평가해서 계산하는 경우가 있습니다
  • 확률 보정을 위해서 다음과 같은 방법을 사용할 수 있습니다
  • 예측이 맞을 이유, 틀릴 이유를 한 번 다시 되짚어보기
  • 큰 범위에서 생각해서 좁혀나가기
  • 실제값이 예측값보다 클 경우, 작을 경우에 대해서 나눠서 생각해보기
  • 주관적 확률은 객관적 확률보다 신뢰가 어렵다라는 생각을 버릴 필요가 있습니다. 측정 자체가 불확실성을 측정하고 감소시키는 것이라고 생각하면 주관적 확률에 대한 신뢰가 필요합니다.

예를 들어 비행기의 날개 너비를 누가 물어보았다고 가정해봅니다. 많은 사람들이 대략 중간값을 잡고 양쪽에 신뢰구간을 적절히 동일하게 가져감으로써 답을 말합니다. 하지만 이게 정말 어느 정도의 신뢰도를 가지고 말하는 지에 대한 부분은 깊게 고민하지 않습니다.

위에서 보정을 위한 방법은 모두 수치 접근 방식에서 잊고 지나간 논점을 상기시켜줌으로써 확률을 보정할 수 있도록 하는 방법입니다. 예를 들어 한 때 컨설팅 인터뷰에서 유명했던 “특정 지역 내 피아노 조율사의 수” 등의 문제를 풀 때 논리구조를 세워보셨던 분들은 바로 이해할 수 있을 것입니다. 다만 확률을 이야기할 때는 이런 논리구조는 어느정도 일반화가 가능하고 우리 의사결정에도 조금만 고민하면 적용할 수 있습니다.

이렇게 수치를 만들고 나면 이제 시뮬레이션 등을 통해서 정보의 가치를 통합해서 의사결정에 미치는 수치를 대략이나마 계산할 수 있게 됩니다.

Read more

DataFrame은 Pandera로, 모델은 Pydantic으로 데이터를 검증한다.

DataFrame은 Pandera로, 모델은 Pydantic으로 데이터를 검증한다.

Pandera: 데이터프레임 검증에 최적화된 도구 주요 장점 * Pandas와 통합: Pandas 데이터프레임에 대해 스키마 기반 검증을 수행합니다. * 유연한 검증 조건: 열 데이터 타입, 값 범위, Null 여부 등 다양한 검증 조건을 정의할 수 있습니다. * 명확한 오류 메시지: 스키마 불일치에 대한 명확한 오류 메시지를 제공합니다. 단점 * 대용량 데이터 검증에서는 속도가 느릴 수

Tobit Regression은 Censored Data에 적합한 Regression이다.

Tobit Regression은 Censored Data에 적합한 Regression이다.

Tobit Regression * Tobit 회귀(Tobit Regression)는 종속 변수가 특정 값에서 절단(Censored)된 상황에서 데이터를 분석하기 위해 사용되는 통계 기법입니다. * James Tobin이 처음 제안한 이 모델은 경제학과 사회과학 분야에서 자주 사용되며, 일반 선형 회귀로는 설명할 수 없는 상황에서 효과적으로 적용할 수 있습니다. Tobit Regression 수식 1. 관측된 종속 변수