23 2월 2022 4 min read Data

부트스트래핑(Bootstrapping)으로 의사결정 분석하기

주어진 상황

한 기업이 미국 주요 주의 도시별로, 약 한달간 서비스를 시범운영
각 주 별로 도시의 수가 다른 상황
각 주 별 수익의 분포가 정규분포와 같은 기존 분포를 따르는지 확신할 수 없는 상황에서 비모수 데이터로 기간도 짧고, 데이터 양도 많지 않은 상황이다.
초기 데이터는 다음과 같다.

	state_id	city_id	sales
0	K	K023	7549889.39
1	K	K024	9276755.93
2	K	K021	10267332.39
3	K	K016	12201990.58
4	K	K006	16268325.38
...	...	...	...
247	N	N022	382.61
248	S	S002	25041331.94
249	S	S001	7411905.33
250	M	M001	11.21
251	T	T001	12474.74

각 주별 평균 수익률과 95% 신뢰구간 계산하고자 할 때

이 때 Bootstrapping을 사용해서 평균 수익률 외에, 95% 신뢰구간을 빈도주의 컨셉으로 계산해볼 수 있다.
Bootstrapping은 모집단에서 추출한 Sample이 있을 때, 해당 Sample에서 복원추출을 여러번 해서 각가가 통계량을 계산한 이후, 해당 통계량의 분포를 이용하는 방식이다. Sample도 어떻게 보면 모집단으로 가정하고, 여기서 재추출함으로써 표본 추출에서 발생했던 불확실성을 감소시킬 수 있기 때문에 Bootstrapping을 사용하는 것은 의미가 있다고 볼 수 있다.
물론 원래의 모집단이 iid가정을 충족해야 한다는 제약이 있고 분석을 할 때마다 수치가 다르게 나올 가능성이 충분히 있으나, Resamplng 횟수를 많이 하면 대략 무시할 정도로 그 차이가 줄일 수있다.
이 때 95%신뢰구간은 표본추출을 100번 해보았을 때, 그 안에 모평균이 95%는 포함되고 있음을 이야기 하는데, 이렇게 이야기 하면 비전공자 분들은 쉽게 이해하기가 어려울 수 있으니 적절히 95% 확신할 수 있다로 이야기 하면 정리가 가능하다. 신뢰구간에 대한 내용은 이 분 블로그를 참조하는게 좋다.

import numpy as np
import pandas as pd
import pymc3 as pm
from scipy.stats import norm

def bootstrap(df, column='sales', n_sample=10000):   
    data = df[column]
    samples = np.random.choice(data, size=(int(n_sample), len(data))).mean(axis=1)
    
    sample_mean = data.mean()
    std_err = samples.std()
    z = norm.ppf( [0.025,1-0.025] ) #95% Confidence Interval
    
    lower_bound, upper_bound = sample_mean + z*std_err
    
    return pd.DataFrame([{
        'sample_mean': sample_mean,
        'std_err': std_err,
        'lower_bound': lower_bound,
        'upper_bound': upper_bound,
    }])
    
    
threshold = 2e+06
raw_df.groupby(['state_id']).apply(bootstrap).assign(significant=lambda d: d.lower_bound >= threshold).sort_values('sample_mean', ascending=False)

(Source: The RED : 우버처럼 하는 머신러닝 의사결정)

그러면 다음과 같이 결과를 얻을 수 있다. 각 주별로 도시의 수익을 95% 상한/하한구간을 구할 수 있다. Significant는 지정한 수익의 Threshold를 넘었는지 여부 정도의 수치이다. 이러한 식으로 Bootstartpping을 이용해서 의사결정을 지원할 수도 있다.

		sample_mean	std_err	lower_bound	upper_bound	significant
state_id
S	0	1.622662e+07	6.188215e+06	4.097940e+06	2.835530e+07	True
K	0	1.574882e+07	1.229197e+06	1.333964e+07	1.815801e+07	True
P	0	1.436418e+07	3.725290e-09	1.436418e+07	1.436418e+07	True
G	0	1.381692e+07	3.098904e+06	7.743177e+06	1.989066e+07	True
L	0	1.376060e+07	2.381484e+06	9.092979e+06	1.842822e+07	True
R	0	1.330862e+07	2.452539e+06	8.501727e+06	1.811550e+07	True
C	0	1.164475e+07	1.250479e+06	9.193860e+06	1.409565e+07	True
J	0	1.163940e+07	2.620053e+06	6.504188e+06	1.677461e+07	True
O	0	9.655540e+06	1.243954e+06	7.217436e+06	1.209364e+07	True
H	0	9.645671e+06	1.683808e+06	6.345468e+06	1.294587e+07	True
N	0	5.716266e+06	1.447926e+06	2.878383e+06	8.554149e+06	True
F	0	4.998980e+06	1.638056e+06	1.788449e+06	8.209512e+06	False
A	0	4.784722e+06	1.315375e+06	2.206635e+06	7.362808e+06	True
B	0	3.702787e+06	1.152492e+06	1.443943e+06	5.961631e+06	False
I	0	3.471974e+06	1.297475e+06	9.289702e+05	6.014978e+06	False
D	0	3.022050e+06	1.129446e+06	8.083771e+05	5.235724e+06	False
E	0	2.171747e+06	7.592370e+05	6.836702e+05	3.659824e+06	False
T	0	1.247474e+04	1.818989e-12	1.247474e+04	1.247474e+04	False
M	0	1.121000e+01	3.552714e-15	1.121000e+01	1.121000e+01	False

주어진 상황

각 주별 평균 수익률과 95% 신뢰구간 계산하고자 할 때

You might also like...

수요예측, 수정구슬이 아닌 목표를 향한 냉정한 나침반

Beyond Static Responses: Multi-Agent LLM Systems as a New Paradigm for Social Science Research

[책] 리더의 돕는 법, "관계"로써 도움을 바라보기.

AB테스트를 하지 않을 때 발생할 수 있는 실수

MCP Server는 모델을 관리 및 서빙을 해주는 서버이다.