인과추론(Causal Inference) - Chain & Fork
Disclaimer
- 본인이 공부하고 본인이 이해한만큼만 정리되어 있으니 질답 및 태클은 언제든지 환영합니다.
Data & Graph
- 구조적 인과 모델(Structural Casual Model)이란 변수들 간의 인과 관계를 구조적인 식으로 나타낸 것
- 구성요소는 \( U, V, f \)로 되어 있으며,\(U\)는 외생변수, \(V\)는 내생변수, \(f\)는 모델 내에서 다른 변수들에 따라 $V$에 속한 변수들을 결정하는 함수
- 구조방정식을 통해방정식에 포함된 정량적 정보를 확인하거나, 또는 오차항에 의존하지 않고 그래프 구조를 이용해서 데이터 독립여부를 판단할 수 있다.
- 그래프 구조만을 알고 있으면 변수 간의 관계에 대한 강도 또는 성격을 알수는 없어도 변수간의 독립 및 조건부독립 여부 정도는 파악할 수 있다.
- DAG(Directed Acyclic Graph)를 그려 보면 대부분 노드간의 관계에서 인과관계가 관찰이 되는데 조건부 독립 등의 형태로 그렇지 않은 경우가 있다. 이를 Intransitive Dependence라고 말한다.
- 그래프에서 나타나는 구조로 Fork, Chain, Collider 등이 있다.
Chain
- X,Z 사이에 하나의 경로(Unidirectional path)가 있고 Y가 해당 경로의 중간에 있는 변수집합일 때 Y가 조건부로 주어지면 두 변수와 X와 Y는 조건부 독립이다.
- 중요한 것은 오차항 \(U_X,U_Y,U_Z \) 가 모두 서로 독립이어야 한다는 것이다. $U$는 앞서 언급한 바와 같이 외생변수로 알려지지 않은 변수나 또는 랜덤효과로서 각 변수의 다양성을 설명하는 부가적인 요소이다. 예를 들어 식에서는 이렇게 사용될 수 있다.
- \(V={ X,Y,Z }, U= \{U_x,U_Y,U_Z \}, F=\{f_X,f_Y,f_Z \} \)
- \( f_X : X = U_X \)
- \( f_Y : Y = {x \over 3} + U_Y \)
- \( f_Z : Y = {y \over 16} + U_Z \)
- Y의 조건이 주어졌을 때 X와 Z는 독립이 된다. 다시 말해서 Y값을 Fix하면 X와 Z의 집합은 서로 독립이 될수 있다. 그렇지 않으면 X값의 변화에 따라 Z가 영향을 받을 수 있다.
- 이런 그래프 형태를 Chain라고 말한다.
Fork
- 변수 X가 변수 Y와 Z의 공통 원인(Common Cause)이고 Y와 Z 사이에 단 하나의 경로가 있는 경우 X의 조건이 주어졌을 때 Y와 Z는 조건부 독립이다.
- X의 값을 고정시키면 X값의 변동으로 인해서 생길 수 있는 Y와 Z의 변동은 없다. 서로 독립일 가능성이 높아진다.
- 이런 그래프 형태를 Fork라고 말한다.