인과추론(Causal Inference) – Intervention
Intervention
- 통계학 연구의 궁극적인 목적은 개입(Intervention)의 효과를 예측하는 것
- RCT에서는 결과에 영향을 줄 수 있는 요인 단하나만 제외하고 다른 요인은 고정하거나 랜덤하도록 변하도록 조절해서 측정할 수 있다.
- 하지만 RCT가 어려울 경우 데이터를 기록하는 관측연구(Observational study)를 수행하게 된다. 그런데 관측연구에서는 인과관계를 상관관계로부터 유도해내기가 쉽지 않다.
- X → Y 라는 그래프 모델이 있을 때 변수 x가 자연스럽게 X를 갖는 경우가 있는데 의도적으로 X=x를 만드는 것을 do(X=x)로 표기한다.
조정공식
- 평균 인과효과(Average Causal Effect, ACE) = \( P(Y=1|do(X=1)) -P(Y=1|do(X=0)) \)
- X ← Z → Z, X → Y 형태의 모형이 있다고 할 때 Z를 조건부로 설정하면서 인과효과의 정도를 계산할 수 있다.
- 이 때 조작된 확률 \(P_m\)(fig 3.4)은 \(P\)(fig 3.3)와 두 가지 필수 속성을 공유한다.
- Z → X까지의 화살표를 제거하도라도 Z를 결정하는 과정에 영향을 미치지 않기 때문에 개입이 있다 해도 확률 P(Z=z)는 변하지 않는다.
- X를 조작하든, 임의로 변하도록 놔두든 Y가 X와 Z에 반응하는 과정, \(Y=f(x,z,u_y)\)는 동일할 것이다.
- 위 두 속성에 기반해서 다음과 같은 방정식을 유도할 수 있다.
- \(P_m(Y=y|Z=z,X=x) = P(Y=y|Z=z,X=x)\)
- \(P_m(Z=z)=P(Z=z)\)
- Z와 X는 수정된 모형에서 d-sperated 되어 있기 때문에 개입된 상황에서 서로 독립이라는 것을 확인할 수 있다. 이는 다음과 같이 정리 된다.
- \(P_m(Z=z|X=x)=Pm(Z=z)=P(Z=z)\)
- 위 사항을 종합하면 다음과 같은 식을 얻을 수 있다.
- \(P(Y=y|do(X=x)) = P_m(Y=y|X=x)\)
- \(\sum\limits_zP_m(Y=y|X=x,Z=z)P_m(Z=z|X=x)\)
- \(\sum\limits_zP_m(Y=y|X=x,Z=z)P_m(Z=z)\)
- 최종적으로 다음과 같이 정리되고 이를 조정공식이라고 말한다.
- \(P(Y=y|do(X=x)) = \sum\limits_zP(Y=y|X=x,Z=z)P(Z=z)\)
- 이를 규칙으로 정리하면 다음과 같다.
- 변수 집합 PA가 X의 부모일 때, 그래프 G가 주어지면 Y에 대한 X의 인과 효과는 다음과 같다
- \(P(Y=y|do(X=x)) = \sum\limits_zP(Y=y|X=x,PA=z)(P(PA=z)\)
- 이 식은 다음과 같은 형태로 변형도 가능하다
- \(P(Y|do(x)) = \sum\limits_z{{P(X=x,Y=y,PA=z)} \over {P(X=x|PA=z)}}\)