[책]원인과 결과의 경제학(Causal Inference/인과추론) 입문서
왜읽었는가?
- 표본에 기반한 통계검정 및 다양한 통계적 학습도 중요하지만, 매일 실제로 발생하는 업무는 인과관계에 대한 규명이 대부분임
- 따라서 인과관계에 대한 추론이 실제로는 업무에서 더 중요할 수도 있음
- 이 책은 인과추론의 입문서 성격
인과추론
- 사실관계와 인과관계는 다르다
인과관계가 있는지 확인하기 위한 세가지 포인트
- 우연의 일치는 아닌가?
- 제 3의 변수는 없는가? (교란요인의 존재 유무)
- 역의 인과관계는 존재하지 않는가
위 세가지가 존재하지 않음을 증명하기 위한 방법
- 반사실과의 비교 (What If?)
근거의 단계 (오른쪽으로 가면 그 수준이 높음)
- 회귀분석 → 자연실험과 준실험 → 랜덤화 비교시험(인과추론의 이상형) → 메타분석
인과추론의 5단계
- 원인을 정의
- 결과를 정의
- 세가치 포인트를 확인
- 반사실을 정의 또는 타당한 값으로의 대체
- 비교 가능하도록 조정
랜덤실험
- 연구 대상자를 랜덤으로 개입을 받는 그룹(실험군)과 그렇지 않은 그룹(대조군)으로 나눈다
- 반사실을 대조군의 결과로 채움
- 실험군과 대조군의 차이가 통계적으로 유의미하지 않다
- 그 차이가 우연에의한 오차범위 내에서 설명할 수 있다.
자연실험
- 연구 대상자들이 법률이나 제도의 변경, 자연재해 등 ‘외생적 쇼쿠에’ 의해 자연적으로 개입을 받는 그룹(실험군)과 그렇지 않은 그룹(대조군)으로 나뉜 상황을 이용, 인과관계를 검증하는 방법
이중차분법
- 실험군과 대조군의 개입전후의 차이와 실험군과 대조군의 차이 이렇게 두 개의 차이로 효과를 추정
- 실험군과 대주곤은 개입 전 결과의 트렌드가 같아야 한다
- 개입과 같은 타이밍에 결과에 영향을 줄 만한 다른 변화가 실험군과 대조군에 별개로 발생하지 않아야 한다.
조작변수
- 원인에 영향을 주는 것을 통해서만 결과에 영향을 주는 조작변수를 이용해 실험군과 대조군을 비교 가능한 상태로 만드는 것
- 조작변수는 원인에 영향을 미치지만 결과에는 직접 영향을 주지 않아야 한다.
- 조작변수와 결과 모두에 영향을 줄만한 제 4의 변수는 존재해서는 안된다.,
회귀불연속 설계
- 자의적으로 결정된 컷오프 값을 중심으로 실험군과 대조군으로 갈리는 상황을 이용해 인과 효과를 추정하는 방법
- 컷오프 값 주변에서 결과에 영향을 줄만한 다른 이벤트가 발생하지 않아야 한다.
매칭법
- 결과에 영향을 줄만한 공변량을 이용해 대조군과 실험군과 매우 흡사한 샘플을 찾아내 매칭시켜 비교하는 방법
- 공변량이 모두 관찰 가능해야 하고 수치화할 수 있어야 한다.
- 공변량이 복수일 때는 종합해서 점수화를 해서 이용하는 방법도 있다.(Propensity Score Matching)
회귀분석
- 기존 데이터 안에서 규칙을 찾는 방법
- 회귀선의 기울기는 ‘인과효과’를 의미
분석의 타당성 및 한계에 대해
- 타당성
- 내적타당성: 연구대상이 된 집단에 재차 동일한 개입을 했을 때 같은 결과가 재현되는 정도
- 외적타당성: 연구대상이 아닌 다른집단에 개입햇을 때 같은 결과가 재현되는 정도
- 랜덤화 비교시험에 대한 한계
- 시험에 대한 비용적 문제
- 외적타당성: 엄격한 대상자 선정으로 인해 다른 집단에서 재현성이 떨어지는 경우
- 윤리적인 문제
- 랜덤화에 대한 문제
- 실험 중간에 대상자들이 대조군에서 실험군으로 이동하는 경우
- 랜덤화 비교시험에서 확인된 효과(Efficacy)보다 사회 전체에 도입했을 때의 효과(Effectiveness)가 작을 때