Missing Data Handling from a Bayesian Perspective

Missing Data Mechanism Classification

  • Missing Data가 어떠한 이유로 생겨나는지, Observed Data와의 관계는 어떠한지 등을 감안하여 분류할 수 있음
  • $M$을 Missing Data Indicator라고 할 때 다음과 같이 분류 가능($M$은 Data가 있으면 1, 없으면 0)
  • Classification
    • MACR( Missing Completely at Random)
      • $f(M|y) = f(M|\phi)$
    • MAR(Missing at Random)
      • $f(M|y) = f(M|y_{obs},\phi)$
    • NMAR(Missing not at Random, not ignorable)
      • $f(M|y) = f(M|y_{obs},y_{miss},\phi)$

Missing Data Handling Method

Deletion

  • Listwise Deletion
  • Pairwise Deletion

Single Imputation

  • Mean Imputation
  • Regression Imputation
  • Stochastic Regression Imputation
    • Regression Imputation에서 발전된 것으로 Missing Data를 Fitted Value로 imputation할 경우 신뢰도가 과대 추정될 수 있는 부분을 막기 위해서 Residual 추가
  • Hot Deck Imputation
  • Predictive Mean Matching

Bayesian Methods of Multiple Imputation

  • Data Augmentation
  • Chained Equation
  • EM Bootstrap: A Hybrid Bayesian/Frequentist Method
  • Bayesian Bootstrap Predictive Mean Matching

References