By Bongho, Lee in Causal Inference — 25 5월 2021

인과추론(Causal Inference) - Chain & Fork

Disclaimer

구조적 인과 모델(Structural Casual Model)이란 변수들 간의 인과 관계를 구조적인 식으로 나타낸 것
구성요소는 $ U, V, f $로 되어 있으며,$U$는 외생변수, $V$는 내생변수, $f$는 모델 내에서 다른 변수들에 따라 $V$에 속한 변수들을 결정하는 함수
구조방정식을 통해방정식에 포함된 정량적 정보를 확인하거나, 또는 오차항에 의존하지 않고 그래프 구조를 이용해서 데이터 독립여부를 판단할 수 있다.
그래프 구조만을 알고 있으면 변수 간의 관계에 대한 강도 또는 성격을 알수는 없어도 변수간의 독립 및 조건부독립 여부 정도는 파악할 수 있다.
DAG(Directed Acyclic Graph)를 그려 보면 대부분 노드간의 관계에서 인과관계가 관찰이 되는데 조건부 독립 등의 형태로 그렇지 않은 경우가 있다. 이를 Intransitive Dependence라고 말한다.
그래프에서 나타나는 구조로 Fork, Chain, Collider 등이 있다.

X,Z 사이에 하나의 경로(Unidirectional path)가 있고 Y가 해당 경로의 중간에 있는 변수집합일 때 Y가 조건부로 주어지면 두 변수와 X와 Y는 조건부 독립이다.
중요한 것은 오차항 $U_X,U_Y,U_Z $ 가 모두 서로 독립이어야 한다는 것이다. $U$는 앞서 언급한 바와 같이 외생변수로 알려지지 않은 변수나 또는 랜덤효과로서 각 변수의 다양성을 설명하는 부가적인 요소이다. 예를 들어 식에서는 이렇게 사용될 수 있다.
$V={ X,Y,Z }, U= \{U_x,U_Y,U_Z \}, F=\{f_X,f_Y,f_Z \} $
$ f_X : X = U_X $
$ f_Y : Y = {x \over 3} + U_Y $
$ f_Z : Y = {y \over 16} + U_Z $
Y의 조건이 주어졌을 때 X와 Z는 독립이 된다. 다시 말해서 Y값을 Fix하면 X와 Z의 집합은 서로 독립이 될수 있다. 그렇지 않으면 X값의 변화에 따라 Z가 영향을 받을 수 있다.
이런 그래프 형태를 Chain라고 말한다.

변수 X가 변수 Y와 Z의 공통 원인(Common Cause)이고 Y와 Z 사이에 단 하나의 경로가 있는 경우 X의 조건이 주어졌을 때 Y와 Z는 조건부 독립이다.
X의 값을 고정시키면 X값의 변동으로 인해서 생길 수 있는 Y와 Z의 변동은 없다. 서로 독립일 가능성이 높아진다.
- 이런 그래프 형태를 Fork라고 말한다.