[책] How to Measure Anything 2부 - 측정의 정의를 명확하게 하기, 그리고 확률 보정하기

측정 문제 명확화

  • 다음 질문에 대한 답을 생각해볼 필요가 있습니다
  • 이 측정이 영향을 미치 의사결정 내용은 무엇입니까?
  • 관찰을 통해 측정하고자 하는 대상을 어떻게 정의할 수 있습니까?
  • 그 측정 대상이 정확히 어떻게 의사결정에 영향을 미칩니까?
  • 얼마나 많이 알고 있습니까?
  • 추가 정보의 가치가 얼마나 됩니까?
  • 불확실성과 위험의 의미
  • 불확실성: 확실하지 않으나 일어날 확률이 존재하는 것, 결과/상태/값을 모르는 상황 → 결과에 대한 확률을 부여하기 어려움
  • 위험: 결과에 대한 확률이 존재하는 상황 → 정량화된 확률과 손실 계산 가능

“고객의 충성도”를 높이자라는 목표가 있다고 가정합시다. 이 때 고객의 충성도에 대한 정의를 명확하게 하지 않으면 기본적으로 모든 부서의 업무와 이를 연결시키는 것을 어려울 것입니다. 충성도가 재주문의 횟수인지, 아니면 서비스 내 체류시간인지에 대한 정리가 매우 중요합니다.

나아가 “고객의 충성도”가 의사결정에 쓰일 때, 의사결정에 주는 가치를 판단할 수 있다면 앞서 언급한 부서간의 정의 통일이 주는 가치를 인지하고 업무로서 진행할지 여부도 판단할 수 있게 됩니다.

따라서 정의를 명확히하는 것은 매우 중요합니다. 그리고 이를 확장해서 우리가 확실하지 않은 사실 중 측정가능한 부분(위험)을 측정해서 정보를 계산할 수 있을 때 이게 의사결정에 어떠한 영향을 미칠지 판단할 수 있다면 측정할 수 있는 데이터의 범위는 상당히 넓어질 수 있게 됩니다.

확률 보정

  • 생각보다 많은 사람들이 본인이 예측할 수 있는 범위를 넘어서 계산하고, 또 생각보다 많은 사람들이 본인이 예측할 수 있는 범위를 과소평가해서 계산하는 경우가 있습니다
  • 확률 보정을 위해서 다음과 같은 방법을 사용할 수 있습니다
  • 예측이 맞을 이유, 틀릴 이유를 한 번 다시 되짚어보기
  • 큰 범위에서 생각해서 좁혀나가기
  • 실제값이 예측값보다 클 경우, 작을 경우에 대해서 나눠서 생각해보기
  • 주관적 확률은 객관적 확률보다 신뢰가 어렵다라는 생각을 버릴 필요가 있습니다. 측정 자체가 불확실성을 측정하고 감소시키는 것이라고 생각하면 주관적 확률에 대한 신뢰가 필요합니다.

예를 들어 비행기의 날개 너비를 누가 물어보았다고 가정해봅니다. 많은 사람들이 대략 중간값을 잡고 양쪽에 신뢰구간을 적절히 동일하게 가져감으로써 답을 말합니다. 하지만 이게 정말 어느 정도의 신뢰도를 가지고 말하는 지에 대한 부분은 깊게 고민하지 않습니다.

위에서 보정을 위한 방법은 모두 수치 접근 방식에서 잊고 지나간 논점을 상기시켜줌으로써 확률을 보정할 수 있도록 하는 방법입니다. 예를 들어 한 때 컨설팅 인터뷰에서 유명했던 “특정 지역 내 피아노 조율사의 수” 등의 문제를 풀 때 논리구조를 세워보셨던 분들은 바로 이해할 수 있을 것입니다. 다만 확률을 이야기할 때는 이런 논리구조는 어느정도 일반화가 가능하고 우리 의사결정에도 조금만 고민하면 적용할 수 있습니다.

이렇게 수치를 만들고 나면 이제 시뮬레이션 등을 통해서 정보의 가치를 통합해서 의사결정에 미치는 수치를 대략이나마 계산할 수 있게 됩니다.

Read more

OLS 기반 인과추론 시 오차항 관련 체크 필요 가정

OLS 기반 인과추론 시 오차항 관련 체크 필요 가정

배경 * 아래 글을 DANBI에서 보다가 더 알아보게 되었습니다. OLS를 떠받치는 몇 개의 기둥이 있는데 그중 실용적으로 가장 중요한 것이 일치성(consistency)다. 쉽게 말해서 OLS를 통해 도출된 추정량이 있을 때 샘플사이즈가 커지면서 이 값이 참 값으로 접근한다는 것이다. 일치성이 충족되면 우리는 적당하게 큰 표본에 대해서 추정치가 좋은 속성을 지니고 있다고

인공지능이 문제가 아니라 결국 사람이 문제가 될 것입니다.

인공지능이 문제가 아니라 결국 사람이 문제가 될 것입니다.

사람들이 AI가 필요하다고 생각하는 시점 저 판사를 얼른 AI로 교체해야 한다. 유튜브에서 뉴스를 보다 보면 정말 많이 보이는 덧글입니다. 이러한 내용의 덧글이 달릴 때마다, 정말 많은 사람들이 공감을 표하곤 합니다. 왜 이렇게 사람들은 이러한 주장에 공감을 표하는 것일까? AI는 시킨대로 하기 때문에 공정하다는 인식 여러 이유가 있겠지만, 사람들은 아마 AI가

BG/NBD 모델은 고객 생애가치를 추정하는데 사용되는 확률 모델입니다.

BG/NBD 모델은 고객 생애가치를 추정하는데 사용되는 확률 모델입니다.

1. BG/NBD 모델이란? * BG/NBD(Beta-Geometric/Negative Binomial Distribution) 모델은 **고객의 생애 가치(Customer Lifetime Value, CLV)**를 추정하는 데 사용되는 확률적 모델입니다. * 특히 고객이 반복 구매를 할지, 아니면 더 이상 활동하지 않을지를 추정하는 데 유용합니다. 이 모델은 고객의 구매 행태를 두 가지 중요한 개념으로 나눕니다: * 고객은 활성(active)

다중공선성은 잘못된 인과추론 결과를 만들어낼 수 있습니다.

다중공선성은 잘못된 인과추론 결과를 만들어낼 수 있습니다.

다중공선성(Multi Collinearity) * **Multi-Collinearity(다중공선성)**는 독립 변수들 간의 강한 상관관계가 존재할 때 발생합니다. 즉, 한 독립 변수가 다른 독립 변수에 의해 설명될 수 있을 정도로 상관관계가 높은 상황을 의미합니다. * 이 문제는 주로 회귀 분석에서 나타나며, 변수들 간의 관계를 해석하는 데 있어 큰 장애물이 될 수 있습니다. * 일반적인 회귀식을 $Y=