AB테스트 시 비회원의 그룹할당을 고민해야 하는 이유

AB테스트 시 비회원의 그룹할당을 고민해야 하는 이유
Photo by Jason Dent / Unsplash

A/B테스트 시, 비회원은 어떻게 그룹할당할지 고민하지 않으면, 특정 그룹으로 쏠리거나, 아예 반영되지 않는 상황을 야기할 수 있다.

통상 비회원은 회원번호를 공통으로 처리하고 있기 때문이다. 예를 들어 "000000000000"으로 한다. 회원번호를 문자로 하기보다는 Sequence 형태로 Integer Type으로 하는 경우가 많기 때문에 비회원도 수치로 표현하는 경우가 많다.

이렇게 수치로 할 경우, 이후에 A/B 테스트를 하면서 회원번호로 하면 아무래도 그룹할당을 Random으로 하기가 용이해지나, 비회원의 경우 동일한 번호를 가지고 있다보니, 한쪽 그룹에 몰리는 경우가 발생할 수 있다. 이 경우 비회원이 많은 비즈니스의 경우 비회원에 의해서 실험 결과가 아예 망가지는 결과를 낳을 수 있다.

물론 실험 결과 분석시 이 부분을 필터링하고 보면 되지만, 비회원의 규모가 큰 경우 실험결과를 모두 제외하고 보는 것은 비용 대비로도 좋지 않기 때문에 이 경우, 비회원의 회원번호 대신 기기아이디라던가, 다른 형태로 비회원을 개개인별로 특정할 수 있는 Identifier를 활용하는 것이 좋다.

Read more

DataFrame은 Pandera로, 모델은 Pydantic으로 데이터를 검증한다.

DataFrame은 Pandera로, 모델은 Pydantic으로 데이터를 검증한다.

Pandera: 데이터프레임 검증에 최적화된 도구 주요 장점 * Pandas와 통합: Pandas 데이터프레임에 대해 스키마 기반 검증을 수행합니다. * 유연한 검증 조건: 열 데이터 타입, 값 범위, Null 여부 등 다양한 검증 조건을 정의할 수 있습니다. * 명확한 오류 메시지: 스키마 불일치에 대한 명확한 오류 메시지를 제공합니다. 단점 * 대용량 데이터 검증에서는 속도가 느릴 수

Tobit Regression은 Censored Data에 적합한 Regression이다.

Tobit Regression은 Censored Data에 적합한 Regression이다.

Tobit Regression * Tobit 회귀(Tobit Regression)는 종속 변수가 특정 값에서 절단(Censored)된 상황에서 데이터를 분석하기 위해 사용되는 통계 기법입니다. * James Tobin이 처음 제안한 이 모델은 경제학과 사회과학 분야에서 자주 사용되며, 일반 선형 회귀로는 설명할 수 없는 상황에서 효과적으로 적용할 수 있습니다. Tobit Regression 수식 1. 관측된 종속 변수