[책]원인과 결과의 경제학(Causal Inference/인과추론) 입문서

왜읽었는가?

  • 표본에 기반한 통계검정 및 다양한 통계적 학습도 중요하지만, 매일 실제로 발생하는 업무는 인과관계에 대한 규명이 대부분임
  • 따라서 인과관계에 대한 추론이 실제로는 업무에서 더 중요할 수도 있음
  • 이 책은 인과추론의 입문서 성격

인과추론

  • 사실관계와 인과관계는 다르다

인과관계가 있는지 확인하기 위한 세가지 포인트

  • 우연의 일치는 아닌가?
  • 제 3의 변수는 없는가? (교란요인의 존재 유무)
  • 역의 인과관계는 존재하지 않는가

위 세가지가 존재하지 않음을 증명하기 위한 방법

  • 반사실과의 비교 (What If?)

근거의 단계 (오른쪽으로 가면 그 수준이 높음)

  • 회귀분석 → 자연실험과 준실험 → 랜덤화 비교시험(인과추론의 이상형) → 메타분석

인과추론의 5단계

  • 원인을 정의
  • 결과를 정의
  • 세가치 포인트를 확인
  • 반사실을 정의 또는 타당한 값으로의 대체
  • 비교 가능하도록 조정

랜덤실험

  • 연구 대상자를 랜덤으로 개입을 받는 그룹(실험군)과 그렇지 않은 그룹(대조군)으로 나눈다
    • 반사실을 대조군의 결과로 채움
  • 실험군과 대조군의 차이가 통계적으로 유의미하지 않다
    • 그 차이가 우연에의한 오차범위 내에서 설명할 수 있다.

자연실험

  • 연구 대상자들이 법률이나 제도의 변경, 자연재해 등 ‘외생적 쇼쿠에’ 의해 자연적으로 개입을 받는 그룹(실험군)과 그렇지 않은 그룹(대조군)으로 나뉜 상황을 이용, 인과관계를 검증하는 방법

이중차분법

  • 실험군과 대조군의 개입전후의 차이와 실험군과 대조군의 차이 이렇게 두 개의 차이로 효과를 추정
    • 실험군과 대주곤은 개입 전 결과의 트렌드가 같아야 한다
    • 개입과 같은 타이밍에 결과에 영향을 줄 만한 다른 변화가 실험군과 대조군에 별개로 발생하지 않아야 한다.

조작변수

  • 원인에 영향을 주는 것을 통해서만 결과에 영향을 주는 조작변수를 이용해 실험군과 대조군을 비교 가능한 상태로 만드는 것
    • 조작변수는 원인에 영향을 미치지만 결과에는 직접 영향을 주지 않아야 한다.
    • 조작변수와 결과 모두에 영향을 줄만한 제 4의 변수는 존재해서는 안된다.,

회귀불연속 설계

  • 자의적으로 결정된 컷오프 값을 중심으로 실험군과 대조군으로 갈리는 상황을 이용해 인과 효과를 추정하는 방법
    • 컷오프 값 주변에서 결과에 영향을 줄만한 다른 이벤트가 발생하지 않아야 한다.

매칭법

  • 결과에 영향을 줄만한 공변량을 이용해 대조군과 실험군과 매우 흡사한 샘플을 찾아내 매칭시켜 비교하는 방법
    • 공변량이 모두 관찰 가능해야 하고 수치화할 수 있어야 한다.
  • 공변량이 복수일 때는 종합해서 점수화를 해서 이용하는 방법도 있다.(Propensity Score Matching)

회귀분석

  • 기존 데이터 안에서 규칙을 찾는 방법
  • 회귀선의 기울기는 ‘인과효과’를 의미

분석의 타당성 및 한계에 대해

  • 타당성
    • 내적타당성: 연구대상이 된 집단에 재차 동일한 개입을 했을 때 같은 결과가 재현되는 정도
    • 외적타당성: 연구대상이 아닌 다른집단에 개입햇을 때 같은 결과가 재현되는 정도
  • 랜덤화 비교시험에 대한 한계
    • 시험에 대한 비용적 문제
    • 외적타당성: 엄격한 대상자 선정으로 인해 다른 집단에서 재현성이 떨어지는 경우
    • 윤리적인 문제
    • 랜덤화에 대한 문제
      • 실험 중간에 대상자들이 대조군에서 실험군으로 이동하는 경우
    • 랜덤화 비교시험에서 확인된 효과(Efficacy)보다 사회 전체에 도입했을 때의 효과(Effectiveness)가 작을 때