Data

수요예측, 수정구슬이 아닌 목표를 향한 냉정한 나침반

Data

수요예측, 수정구슬이 아닌 목표를 향한 냉정한 나침반

수요예측의 정의와 비즈니스에서의 중요성 기업의 성장과 운영 효율화를 위해 **수요예측(Demand Forecasting)**은 선택이 아닌 필수 요소로 자리 잡았다. 많은 경영진들이 수요예측을 미래 판매량을 정확히 맞히는 '예언'으로 기대하지만, 이는 수요예측의 본질을 오해하는 것이다. 수요예측의 진짜 의미: 미래를 점치는 수정구슬이 아니라, 우리가 도달해야 할 '목표'를

By Bongho, Lee
Beyond Static Responses: Multi-Agent LLM Systems as a New Paradigm for Social Science Research

Data

Beyond Static Responses: Multi-Agent LLM Systems as a New Paradigm for Social Science Research

Summary * 본 논문은 단순한 데이터 처리기부터 복잡한 다중 에이전트 시스템에 이르기까지 LLM 기반 에이전트의 다양한 응용 분야를 이해하기 위한 구조화된 프레임워크를 제시 * 프레임워크는 기능적 임계값(메모리 통합, 자율성, 조정, 학습)을 기준으로 LLM 기반 시스템의 복잡성과 자율성 증가를 포착하는 6단계 구조로 구성됩니다. 이 구조는 동적 환경에서 적응적 의사 결정을 위한

By Bongho, Lee
AB테스트를 하지 않을 때 발생할 수 있는 실수

Data

AB테스트를 하지 않을 때 발생할 수 있는 실수

회사에서 실험의 중요성이 대두되고 있다. 여기서 실험은 A/B 테스트를 말한다. 이러한 실험이 중요시 되는 것은 바로 글로벌 기업이 되었기 때문이다. 글로벌 기업이 되면 각 지역별로 비슷한 서비스 하는 회사간 교류의 기회가 늘어난다. 그리고 서로간의 인사이트 또는 실적을 공유하게 된다. 이런 공유가 잘되려면 증거가 탄탄하고, 누가 봐도 신뢰할 수 있어야

By Bongho, Lee
Tobit Regression은 Censored Data에 적합한 Regression이다.

Data

Tobit Regression은 Censored Data에 적합한 Regression이다.

Tobit Regression * Tobit 회귀(Tobit Regression)는 종속 변수가 특정 값에서 절단(Censored)된 상황에서 데이터를 분석하기 위해 사용되는 통계 기법입니다. * James Tobin이 처음 제안한 이 모델은 경제학과 사회과학 분야에서 자주 사용되며, 일반 선형 회귀로는 설명할 수 없는 상황에서 효과적으로 적용할 수 있습니다. Tobit Regression 수식 1. 관측된 종속 변수

By Bongho, Lee
Conformalized Quantile Regression은 예측 불확실성을 정량화한다.

Data

Conformalized Quantile Regression은 예측 불확실성을 정량화한다.

CQR is * **Conformalized Quantile Regression(CQR)**은 예측 불확실성을 정량화하기 위해 개발된 방법으로, 회귀 문제에서 신뢰 가능한 예측 구간을 생성하는 데 사용됩니다. * 전통적인 **Quantile Regression(분위수 회귀)**과 **Conformal Prediction(적합 예측)**을 결합한 기법으로, 데이터의 분포 가정 없이 사후적 예측 구간을 제공합니다. Motivation * 기존의 예측 방법은 보통 점 예측(

By Bongho, Lee
Zero Inflated Negative Binomial Model은 0이 과도하게 많은 데이터에 유용하다.

Statistics

Zero Inflated Negative Binomial Model은 0이 과도하게 많은 데이터에 유용하다.

Motivation * **Zero-Inflated Negative Binomial Model(ZINB)**은 데이터셋에서 0 값이 과도하게 나타나는 경우에 이를 효과적으로 다루기 위해 개발된 모델입니다. 이 모델은 두 가지 과정을 결합하여 0 값이 생성되는 메커니즘과 실제 데이터 분포(음이항 분포)를 동시에 설명합니다 * 일반적인 음수 이항 분포(Negative Binomial)는 과도한 분산(overdispersion)을 다루는 데

By Bongho, Lee
A/B테스트 시 사용되는 비모수 통계검정 방법론

A/B Test

A/B테스트 시 사용되는 비모수 통계검정 방법론

비모수 통계검정 * 비모수 통계검정(Non-parametric test)은 데이터가 특정한 분포(정규분포 등)를 따르지 않아도 적용할 수 있는 통계적 방법입니다. * 즉, 데이터의 분포를 가정하지 않고 실험 결과를 비교할 수 있어 작은 샘플 크기나 분포가 불확실한 상황에서 유용하게 사용됩니다. * 비모수 검정은 데이터를 순위로 변환하여 분석하거나, 데이터 자체의 분포에 대해 통계적 결론을

By Bongho, Lee
탐험과 활용의 균형을 맞추기 위한 알고리즘, 톰슨샘플링

A/B Test

탐험과 활용의 균형을 맞추기 위한 알고리즘, 톰슨샘플링

톰슨 샘플링이란? * 톰슨 샘플링(Thompson Sampling)은 멀티 암드 밴딧 문제(Multi-Armed Bandit Problem)에서 사용되는 확률론적 알고리즘으로, 다양한 선택지(예: 광고, 제품 추천) 중에서 가장 효율적인 선택지를 반복적으로 탐색하는 방법입니다 * 이는 탐험(Exploration)과 활용(Exploitation)의 균형을 잘 맞추기 위한 기법으로, 각 선택지의 성공 확률을 베이지안 방법론을 통해

By Bongho, Lee
SeedFinder는 실험 전 편향을 제거하기 위한 방법 중 하나입니다.

Data

SeedFinder는 실험 전 편향을 제거하기 위한 방법 중 하나입니다.

SeedFinder * 편향을 최소화하기 위해 "SeedFinder" 방식에서 가장 적은 편향을 가진 SaltKey를 찾는 프로세스 * 기본적인 아이디어는 여러 SaltKey를 사용해 무작위화된 그룹을 생성하고, A/A 테스트에서 이 그룹들의 성과 지표(예: 전환율 등)가 균등한지 평가하여 편향이 적은 SaltKey를 선택하는 것입니다. 전체 프로세스 1. 여러 SaltKey를 생성 2. 각 SaltKey에

By Bongho, Lee
Chi-Square Test와 T-Test는 데이터 특성에 따라 선택하여 사용합니다.

Data

Chi-Square Test와 T-Test는 데이터 특성에 따라 선택하여 사용합니다.

Chi-Square Test가 A/B/C Test에서 사용되는 구체적인 경우 * 범주형 데이터 분석: 각 그룹에서 클릭하거나 전환된 사람의 수를 비교할 때, 이 데이터를 범주형 변수로 간주하고 Chi-Square Test를 적용할 수 있습니다. * 다중 그룹 비교: A/B/C 테스트에서 세 개 이상의 그룹을 비교해야 할 때, Chi-Square Test는 모든 그룹 간의 독립성을

By Bongho, Lee
인공지능이 문제가 아니라 결국 사람이 문제가 될 것입니다.

AI

인공지능이 문제가 아니라 결국 사람이 문제가 될 것입니다.

사람들이 AI가 필요하다고 생각하는 시점 저 판사를 얼른 AI로 교체해야 한다. 유튜브에서 뉴스를 보다 보면 정말 많이 보이는 덧글입니다. 이러한 내용의 덧글이 달릴 때마다, 정말 많은 사람들이 공감을 표하곤 합니다. 왜 이렇게 사람들은 이러한 주장에 공감을 표하는 것일까? AI는 시킨대로 하기 때문에 공정하다는 인식 여러 이유가 있겠지만, 사람들은 아마 AI가

By Bongho, Lee
BG/NBD 모델은 고객 생애가치를 추정하는데 사용되는 확률 모델입니다.

Data

BG/NBD 모델은 고객 생애가치를 추정하는데 사용되는 확률 모델입니다.

1. BG/NBD 모델이란? * BG/NBD(Beta-Geometric/Negative Binomial Distribution) 모델은 **고객의 생애 가치(Customer Lifetime Value, CLV)**를 추정하는 데 사용되는 확률적 모델입니다. * 특히 고객이 반복 구매를 할지, 아니면 더 이상 활동하지 않을지를 추정하는 데 유용합니다. 이 모델은 고객의 구매 행태를 두 가지 중요한 개념으로 나눕니다: * 고객은 활성(active)

By Bongho, Lee
다중공선성은 잘못된 인과추론 결과를 만들어낼 수 있습니다.

Data

다중공선성은 잘못된 인과추론 결과를 만들어낼 수 있습니다.

다중공선성(Multi Collinearity) * **Multi-Collinearity(다중공선성)**는 독립 변수들 간의 강한 상관관계가 존재할 때 발생합니다. 즉, 한 독립 변수가 다른 독립 변수에 의해 설명될 수 있을 정도로 상관관계가 높은 상황을 의미합니다. * 이 문제는 주로 회귀 분석에서 나타나며, 변수들 간의 관계를 해석하는 데 있어 큰 장애물이 될 수 있습니다. * 일반적인 회귀식을 $Y=

By Bongho, Lee
Bayesian P-Value는 불확실성을 감안하여 모델의 적합도를 평가합니다.

Data

Bayesian P-Value는 불확실성을 감안하여 모델의 적합도를 평가합니다.

Bayesian P- Value * Bayesian P-Value는 **모델의 적합도(goodness-of-fit)**를 평가하는 데 사용됩니다. * 사후 분포(posterior distribution)를 이용하여 실제 데이터와 모델이 생성한 예상 데이터를 비교함으로써, 관측된 데이터가 모델에 의해 얼마나 잘 설명되는지를 평가합니다. * 빈도주의 p-값은 "관찰된 데이터보다 극단적인 데이터가 나올 확률"을 계산하지만, Bayesian P-Value는 "모델이 실제

By Bongho, Lee
Non-Identifiability는 Model Parameter를 고유하게 식별할 수 없는 현상입니다.

Data

Non-Identifiability는 Model Parameter를 고유하게 식별할 수 없는 현상입니다.

Non Identifiability * Non-Identifiability는 주어진 데이터와 모델에 대해 특정 파라미터를 고유하게 식별할 수 없는 상황을 의미합니다. 즉, 여러 파라미터 값들이 동일한 데이터를 생성할 수 있으며, 이로 인해 특정 파라미터 값을 확정적으로 추정하기 어렵게 됩니다. * 베이지안 추론에서 Non-Identifiability는 사후 분포가 특정 파라미터 값에 대해 명확하게 수렴하지 않고, 여러 값들에 대해 비슷한 확률을

By Bongho, Lee