Instrument Variable

Going Around Omitted Variable

Background

  • Omitted Variable Bais를 Control 하기 위해서 가장 쉬운 방법은 Omitted Variable을 식에 추가하면 된다.하지만 데이터가 없으면 더할 수도 없다.
  • 아니면, Wage에 대한 Education의 Effect를 볼 때, Ability값을 일정한 레벨로 유지하는 방법도 있다.이 때는 회귀모델에 Ability를 넣고 계산하면 된다.
    • 그런데 Ability를 측정하기 위한 방법을 고민해야 한다. → IQ?

Instrument Variable

  • Instrument Variable(IV)는 Treatment를 통해서 Outcome에 영향을 미치는 변수이다.

    • Instrument Variable $Z_i$ is uncorelated with $Y_0$, but it is correlated with $T$ → a.k.a "exclusion restriction"
  • $Y_i = \beta_0 + \kappa \ T_i + \pmb{\beta}W_i + u_i$ 식이지만,

    • $W$ 관련 데이터가 없기 때문에 실제 식은 $Y_i = \beta_0 + \kappa\ T_i + v_i$이고 $v_i = \pmb{\beta}W_i + u_i$로 $W$에 관한 값을 가지고 있을 것이다.
    • 따라서 $W$는 Confounder이기 때문에 $Cov(T,v) \neq 0$일 것이다.
    • A confounder (also confounding variable, confounding factor, extraneous determinant or lurking variable) is a variable that influences both the dependent variable and independent variable, causing a spurious association.
    • 이 상황에서 그냥 계산하면 $\kappa$는 Biased Estimator일 것이다.
  • 이 때 Instrument Variable을 활용해야 한다. Instirument Variable(IV)는 $Cov(Z,v) = 0$여야 한다.

  • 안그러면 Z -> W -> Y로의 Second path가 다음과 같이 있을 것이다.

  • $Cov(Z,Y) = Cov(Z,\beta_0 + \kappa\ T_i + v_i) = \kappa Cov(Z,T) + Cov(Z, v) = \kappa Cov(Z,T)$

    • 참고) $Cox(X,Y+Z) = Cov(X,Y) + Cov(X,Z)$
  • 이 식을 $V(Z_i)$으로 나누면 $\kappa = \dfrac{Cov(Y_i, Z_i)/V(Z_i)}{Cov(T_i, Z_i)/V(Z_i)} = \dfrac{\text{Reduced Form}}{\text{1st Stage}}$

    • 분자 분모 모두 Regression Coefficient
      • $Y=\beta_{1} X + \beta_0$, 일때 $\hat{\beta_1} = {S_{xy} \over S_{xx}}$
      • $Var(Z_i) = (Z_i - \bar{Z})^2$
    • 분자: The result from the regression of Y on Z
      • only capturing how big is this effect of Z on Y through T.
      • the reduced form coefficient
    • 분모: regression of T on Z A.K.A. 1st Stage Coefficient
  • $\kappa = \dfrac{\frac{\partial y}{\partial z}}{\frac{\partial T}{\partial z}} = \dfrac{\partial y}{\partial z} * \dfrac{\partial z}{\partial T} = \dfrac{\partial y}{\partial T}$

    • Scale을 동일하게 맞췄을 때, Y에 대한 T의 Impact는, Y에 대한 Z의 Impact와 동일하다.
  • Confounder 때문에 T가 Y에게 주는 Impact는 파악하기 어려울 수 있지만, Z가 Y에게 주는 효과를 구할 수 있으니, 이 것을 구한 다음에 T에 대한 Z가 주는 효과로 Normalizing 해주면 간접적으로 우리는 T가 Y에 대해 주는 Impact를 구할 수 있게 된다.

  • When the instrument is a dummy variable.

    • $\kappa = \dfrac{E[Y|Z=1]-E[Y|Z=0]}{E[T|Z=1]-E[T|Z=0]}$ → Wald Estimator

References

Read more

다중공선성은 잘못된 인과추론 결과를 만들어낼 수 있습니다.

다중공선성은 잘못된 인과추론 결과를 만들어낼 수 있습니다.

다중공선성(Multi Collinearity) * **Multi-Collinearity(다중공선성)**는 독립 변수들 간의 강한 상관관계가 존재할 때 발생합니다. 즉, 한 독립 변수가 다른 독립 변수에 의해 설명될 수 있을 정도로 상관관계가 높은 상황을 의미합니다. * 이 문제는 주로 회귀 분석에서 나타나며, 변수들 간의 관계를 해석하는 데 있어 큰 장애물이 될 수 있습니다. * 일반적인 회귀식을 $Y=

Bayesian P-Value는 불확실성을 감안하여 모델의 적합도를 평가합니다.

Bayesian P-Value는 불확실성을 감안하여 모델의 적합도를 평가합니다.

Bayesian P- Value * Bayesian P-Value는 **모델의 적합도(goodness-of-fit)**를 평가하는 데 사용됩니다. * 사후 분포(posterior distribution)를 이용하여 실제 데이터와 모델이 생성한 예상 데이터를 비교함으로써, 관측된 데이터가 모델에 의해 얼마나 잘 설명되는지를 평가합니다. * 빈도주의 p-값은 "관찰된 데이터보다 극단적인 데이터가 나올 확률"을 계산하지만, Bayesian P-Value는 "모델이 실제

Non-Identifiability는 Model Parameter를 고유하게 식별할 수 없는 현상입니다.

Non-Identifiability는 Model Parameter를 고유하게 식별할 수 없는 현상입니다.

Non Identifiability * Non-Identifiability는 주어진 데이터와 모델에 대해 특정 파라미터를 고유하게 식별할 수 없는 상황을 의미합니다. 즉, 여러 파라미터 값들이 동일한 데이터를 생성할 수 있으며, 이로 인해 특정 파라미터 값을 확정적으로 추정하기 어렵게 됩니다. * 베이지안 추론에서 Non-Identifiability는 사후 분포가 특정 파라미터 값에 대해 명확하게 수렴하지 않고, 여러 값들에 대해 비슷한 확률을

Rootgram은 큰 분산을 갖거나 비정규 형태의 데이터를 위한 히스토그램입니다.

Rootgram은 큰 분산을 갖거나 비정규 형태의 데이터를 위한 히스토그램입니다.

Rootgram * 히스토그램의 변형으로 데이터가 비정규적이거나 큰 분산을 가지는 경우, 정확한 분포를 파악하기 위해 사용됩니다. * 일반적으로 히스토그램은 데이터의 빈도를 직접적으로 나타내기 때문에, 큰 값이 빈번하게 발생하는 경우 상대적으로 작은 값을 잘 드러내지 못하는 경향이 있습니다. 반면, Rootgram은 빈도를 제곱근 형태로 변환하여, 데이터 분포의 차이를 더 잘 시각화할 수 있도록 돕습니다 * 여기서