Causal Inference

Double ML과 DR Learner는 ML 기반 인과추론 방법론이다.

Data

Double ML과 DR Learner는 ML 기반 인과추론 방법론이다.

Double ML: Residual on Residual Regression + Cross-Fitting * 통제 변수를 조정하여 잔차 회귀(Residual on Residual Regression)와 교차 적합(Cross-Fitting)을 결합하여 사용합니다. * 장점 * 편향 감소: 잔차 회귀를 통해 통제 변수의 영향을 제거하여 인과 효과 추정의 편향을 줄입니다. * 일관성 보장: 교차 적합을 통해 과적합을 방지하고 추정의 일관성을 보장합니다. * 유연성: 다양한

Causal Inference

Instrument Variable

Going Around Omitted Variable Background * Omitted Variable Bais를 Control 하기 위해서 가장 쉬운 방법은 Omitted Variable을 식에 추가하면 된다.하지만 데이터가 없으면 더할 수도 없다. * 아니면, Wage에 대한 Education의 Effect를 볼 때, Ability값을 일정한 레벨로 유지하는 방법도 있다.이 때는 회귀모델에 Ability를 넣고 계산하면 된다. * 그런데 Ability를 측정하기 위한 방법을

Causal Inference

담배와 폐암간 오래된 논란에 대해서

담배는 폐암을 유발할까? 1950년 후반, 통계학, 의학계를 둘러싸고 아주 격렬하게 토론이 벌어진 주제가 있었습니다. 바로 "담배는 폐암을 유발하는가?"입니다. 어떤 사람들은 당연히, 담배가 폐암을 유발한다고 말합니다. 하지만 여전히 이 문제는 명확하게 정리가 된 바가 없습니다. 여전히 "크게 관련이 있어보일뿐"이라는 말로 정리가 되고 있을 뿐입니다. 오늘

Data

인과추론(Causal Inference) – Inverse Probability Weight

역확률 가중치(Inverse Probability Weighting) * 모집단에서 일부 데이터가 유실되었을 때(예: Selection Bias) 남은 데이터로 유사 모집단(Pseudo Population)을 생성해서 통계를 계산하는 기법 * 1952년에 제시된 꽤 오래된 기법으로 각 데이터에 데이터가 치료군(Treatment)에 속할 가능성의 역수를 가중치(Weight)로 곱해주는 방식 * 개념만 쉽게 본다고 하면 Propensity Score Matching은

Data

인과추론(Causal Inference) – Inverse Probability Weight

역확률 가중치(Inverse Probability Weighting) * 모집단에서 일부 데이터가 유실되었을 때(예: Selection Bias) 남은 데이터로 유사 모집단(Pseudo Population)을 생성해서 통계를 계산하는 기법 * 1952년에 제시된 꽤 오래된 기법으로 각 데이터에 데이터가 치료군(Treatment)에 속할 가능성의 역수를 가중치(Weight)로 곱해주는 방식 * 개념만 쉽게 본다고 하면 Propensity Score Matching은

Causal Inference

인과추론(Causal Inference) – Backdoor Criterion

왜 필요한가? * Unmeasured Parents, 즉 Graph에서 Parent로 표시되더라도 측정이 안되거나, 관측이 안된 Parent가 있을 것이라고 할 때 대체가능한 조정가능 데이터셋( Alternative Set of variables to adjust for)가 필요하다. * Graph의 구조가 어떤 형태일 때 주어진 데이터만으로 인과관계를 판단할 수 있는지, 그 기준이 필요한데 그 중의 하나가 Backdoor criterion이다. Backdoor Criterion

Data

인과추론(Causal Inference) – Intervention

Intervention * 통계학 연구의 궁극적인 목적은 개입(Intervention)의 효과를 예측하는 것 * RCT에서는 결과에 영향을 줄 수 있는 요인 단하나만 제외하고 다른 요인은 고정하거나 랜덤하도록 변하도록 조절해서 측정할 수 있다. * 하지만 RCT가 어려울 경우 데이터를 기록하는 관측연구(Observational study)를 수행하게 된다. 그런데 관측연구에서는 인과관계를 상관관계로부터 유도해내기가 쉽지 않다. * X → Y

Causal Inference

인과추론(Causal Inference) - Chain & Fork

Disclaimer * 본인이 공부하고 본인이 이해한만큼만 정리되어 있으니 질답 및 태클은 언제든지 환영합니다. Data & Graph * 구조적 인과 모델(Structural Casual Model)이란 변수들 간의 인과 관계를 구조적인 식으로 나타낸 것 * 구성요소는 \( U, V, f \)로 되어 있으며,\(U\)는 외생변수, \(V\)는 내생변수, \(f\)는 모델 내에서 다른 변수들에 따라

Causal Inference

매일 사용할지 모르는 간단한 인과추론 방식에 대해서(Confounder)

Confounder * 수치 비교할 때 통상 문제를 일으키는 변수가 있다. → Confounder 변수라고 한다. * X → Y 라는 인과관계를 판단하고 싶을 때 X,Y에 모두 영향을 미치는 변수이다. * Confounder 변수는 종종 Random Factor에 기반해서 하지 않고 임의로 그룹을 나눴을 때 발생한다. * 예시: 명상하는 사람이 심장병 사망율이 그렇지 않은 사람보다 낮다라는 결과에 대해서 운동이나,

Book

[책]원인과 결과의 경제학(Causal Inference/인과추론) 입문서

왜읽었는가? * 표본에 기반한 통계검정 및 다양한 통계적 학습도 중요하지만, 매일 실제로 발생하는 업무는 인과관계에 대한 규명이 대부분임 * 따라서 인과관계에 대한 추론이 실제로는 업무에서 더 중요할 수도 있음 * 이 책은 인과추론의 입문서 성격 인과추론 * 사실관계와 인과관계는 다르다 인과관계가 있는지 확인하기 위한 세가지 포인트 * 우연의 일치는 아닌가? * 제 3의 변수는 없는가? (교란요인의