Holdout Group과 Control Group은 비슷하나 목적이 다르다.

Holdout Group과 Control Group은 비슷하나 목적이 다르다.
Photo by Margarida CSilva / Unsplash

Holdout Group은 실험에서 완전히 제외된 그룹으로, 주로 장기적인 영향을 평가하거나, 베이스라인을 측정하기 위해서 사용되는 경우가 많다. 언틋 보면 Holdout Group은 Control Group과 큰 차이가 없어보이기도 하다. 실제로 시험을 셋팅할 때 가장 많이 듣는 질문 중의 하나가 바로 왜 Control Group과 Holdout Group을 별도로 셋팅하는가이다.

Holdout Group과 Control Group의 차이는 실험에 포함되었는지 여부 정도가 있는데, 이는 생각보다 중요한 차이라고 볼 수 있다. 실험에 포함된다는 것은 실험에 대한 기간이 길어봤자 4주 정도로 유한하다는 것을 의미한다.

따라서 Holdout Group을 잘 활용하면, 실험과 별도로 장기적인 관점에서 관찰한 결과를 바탕으로 Treatment의 효과를 구할 수 있게 된다. 보통 실험을 하게 되면 초두효과나 신기효과 등이 초반에 나타나고 이러한 효과가 길게 나타날 수록, 짧은 실험기간의 특성상 실험 결과를 잘못 해석하는 경우가 있을 수 있다.

예를 들어, 퀵커머스 서비스에서 프로모션에 관한 실험을 한다고 하면 Treatment Group은 프로모션을 받을 그룹이고, Control Group 프로모션을 받지 않을 그룹일것이다. 이 때 만약 이 실험이 끝난 이후에도 이 프로모션이 지속된다면, 시간이 지나면서 Control Group의 사용자들도 프로모션을 인지하거나 간접적인 영향을 받을 수 있다. Holdout Group은 이러한 상황에서 프로모션의 효과를 분석하기위해 적합한 그룹이다.

물론 이렇게 Holdout Group을 활용하려면, 충분한 표본 크기가 확보되어야 하며, 대표성 역시 잘 고려되어 그룹을 선발해야 할 것이다. 그리고 이렇게 관리한 Holdout Group을 바탕으로 실험 결과와 비교할 때는 외부 요인이나 Carry Over Effect등 여러 요인을 보면서 추가 실험 가능성도 함께 검토할 필요가 있다.

Read more

DataFrame은 Pandera로, 모델은 Pydantic으로 데이터를 검증한다.

DataFrame은 Pandera로, 모델은 Pydantic으로 데이터를 검증한다.

Pandera: 데이터프레임 검증에 최적화된 도구 주요 장점 * Pandas와 통합: Pandas 데이터프레임에 대해 스키마 기반 검증을 수행합니다. * 유연한 검증 조건: 열 데이터 타입, 값 범위, Null 여부 등 다양한 검증 조건을 정의할 수 있습니다. * 명확한 오류 메시지: 스키마 불일치에 대한 명확한 오류 메시지를 제공합니다. 단점 * 대용량 데이터 검증에서는 속도가 느릴 수

Tobit Regression은 Censored Data에 적합한 Regression이다.

Tobit Regression은 Censored Data에 적합한 Regression이다.

Tobit Regression * Tobit 회귀(Tobit Regression)는 종속 변수가 특정 값에서 절단(Censored)된 상황에서 데이터를 분석하기 위해 사용되는 통계 기법입니다. * James Tobin이 처음 제안한 이 모델은 경제학과 사회과학 분야에서 자주 사용되며, 일반 선형 회귀로는 설명할 수 없는 상황에서 효과적으로 적용할 수 있습니다. Tobit Regression 수식 1. 관측된 종속 변수