Missing Data Handling from a Bayesian Perspective
Missing Data Mechanism Classification
- Missing Data가 어떠한 이유로 생겨나는지, Observed Data와의 관계는 어떠한지 등을 감안하여 분류할 수 있음
- $M$을 Missing Data Indicator라고 할 때 다음과 같이 분류 가능($M$은 Data가 있으면 1, 없으면 0)
- Classification
- MACR( Missing Completely at Random)
- $f(M|y) = f(M|\phi)$
- MAR(Missing at Random)
- $f(M|y) = f(M|y_{obs},\phi)$
- NMAR(Missing not at Random, not ignorable)
- $f(M|y) = f(M|y_{obs},y_{miss},\phi)$
- MACR( Missing Completely at Random)
Missing Data Handling Method
Deletion
- Listwise Deletion
- Pairwise Deletion
Single Imputation
- Mean Imputation
- Regression Imputation
- Stochastic Regression Imputation
- Regression Imputation에서 발전된 것으로 Missing Data를 Fitted Value로 imputation할 경우 신뢰도가 과대 추정될 수 있는 부분을 막기 위해서 Residual 추가
- Hot Deck Imputation
- Predictive Mean Matching
Bayesian Methods of Multiple Imputation
- Data Augmentation
- Chained Equation
- Bayesian Model Averaging을 결합하는 형태로 발전(Kaplan and Yavuz(2019))
- EM Bootstrap: A Hybrid Bayesian/Frequentist Method
- Bayesian Bootstrap Predictive Mean Matching