각 주 별 수익의 분포가 정규분포와 같은 기존 분포를 따르는지 확신할 수 없는 상황에서 비모수 데이터로 기간도 짧고, 데이터 양도 많지 않은 상황이다.
초기 데이터는 다음과 같다.
state_id
city_id
sales
0
K
K023
7549889.39
1
K
K024
9276755.93
2
K
K021
10267332.39
3
K
K016
12201990.58
4
K
K006
16268325.38
...
...
...
...
247
N
N022
382.61
248
S
S002
25041331.94
249
S
S001
7411905.33
250
M
M001
11.21
251
T
T001
12474.74
각 주별 평균 수익률과 95% 신뢰구간 계산하고자 할 때
이 때 Bootstrapping을 사용해서 평균 수익률 외에, 95% 신뢰구간을 빈도주의 컨셉으로 계산해볼 수 있다.
Bootstrapping은 모집단에서 추출한 Sample이 있을 때, 해당 Sample에서 복원추출을 여러번 해서 각가가 통계량을 계산한 이후, 해당 통계량의 분포를 이용하는 방식이다. Sample도 어떻게 보면 모집단으로 가정하고, 여기서 재추출함으로써 표본 추출에서 발생했던 불확실성을 감소시킬 수 있기 때문에 Bootstrapping을 사용하는 것은 의미가 있다고 볼 수 있다.
물론 원래의 모집단이 iid가정을 충족해야 한다는 제약이 있고 분석을 할 때마다 수치가 다르게 나올 가능성이 충분히 있으나, Resamplng 횟수를 많이 하면 대략 무시할 정도로 그 차이가 줄일 수있다.
이 때 95%신뢰구간은 표본추출을 100번 해보았을 때, 그 안에 모평균이 95%는 포함되고 있음을 이야기 하는데, 이렇게 이야기 하면 비전공자 분들은 쉽게 이해하기가 어려울 수 있으니 적절히 95% 확신할 수 있다로 이야기 하면 정리가 가능하다. 신뢰구간에 대한 내용은 이 분 블로그를 참조하는게 좋다.
그러면 다음과 같이 결과를 얻을 수 있다. 각 주별로 도시의 수익을 95% 상한/하한구간을 구할 수 있다. Significant는 지정한 수익의 Threshold를 넘었는지 여부 정도의 수치이다. 이러한 식으로 Bootstartpping을 이용해서 의사결정을 지원할 수도 있다.