Interpretability in Machine Learning: An Overview

Interpretability

Interpretability는 대체로 모델이 내린 의사결정을 어떻게 설명할 것인지에 대해 초점을 맞춘다.

왜 Interpretability가 중요한가

  1. Interpretable한 모델은 모델활용에 신뢰를 더해줄 수 있다.
  2. 모델적합 시점과 모델활용 시점은 다를 수밖에 없다. 그 차이를 이해하기 위해서는 사용된 Feature들이 모델을 훈련하는데 적합한지, 적합하다면 상대적으로 얼마나 적합한지 판단할 수 있어야 한다. (참고)
  3. 기존의 모델은 블랙박스모델로 의사결정의 근거를 제공해주지 않는다. 하지마나 Interpretable한 모델은 의사결정에 영향을 미친 요소들을 제공해줌에 따라 사람이 모델을 활용할 때 논의할 수 있는 근거를 제시한다.

Interpretability의 주요 요소(참고)

Transparency Interpretability

모델 적합 이전에 파악 가능하고 이해할 수 있는 모델의 속성으로 다음 세가지 조건에 부합해야 함

  • Simulatibility: 인간이 동일하게 단계를 밟아가면서 학습해볼 수 있는가?
  • Decomposability: 모델 합습의 각단계에 대해서 해석 가능한가?
  • Algorithmic Transparency: 모델 자체가 설명이 쉬운 형태로 구성되어 있는가

Post-Hoc Interpretability

모델 적합 이후에 모델로부터 배울 수 있는 속성으로 다음 질문을 충족해야 함

  • Text Explanation: 모델은 자연어로 결과를 설명할 수 있는가?
  • Visualization/Local Explanations: 모델은 결과를 설명하는데 어떤 것이 중요했거나 중요한지 보여줄 수 있는가?
  • Explanation by Example: 모델은 Input/Ouput 관련하여 훈련 데이터외에 다른 예시를 제시할 수 있는가?

Interpretability의 주요 연구방향

Evaluation

  • interpretability을 위한 방법론들을 평가하기 위한 방법을 연구
  • 대체로 시각화를 통해서 어떤 Feature가 중요했는지 설명하고자 시도하고 있으나 점차 모델이 대형화되가는 시점에서 사람이 시각화를 통해서 모두 확인하는 것은 사실상 불가능함

Utility

  • Interpretability를 Model에게 요구하는 것은 유의미하다고 보여지나 실제로 이게 비즈니스에서 어떤 가치를 추가적으로 제공해줄 수 있는지를 확인하는 것

실제로 데이터 과학자들이 Intepretabie Model을 만드는 것보다 Interpretable Model이 무엇을 말하고 있는지 해석하는데 어려움을 겪는 경우가 있음 (참고)


footnote: Interpretability in Machine Learning: An Overview