15 11월 2020 2 min read

Interpretability in Machine Learning: An Overview

Interpretability

Interpretability는 대체로 모델이 내린 의사결정을 어떻게 설명할 것인지에 대해 초점을 맞춘다.

Interpretable한 모델은 모델활용에 신뢰를 더해줄 수 있다.
모델적합 시점과 모델활용 시점은 다를 수밖에 없다. 그 차이를 이해하기 위해서는 사용된 Feature들이 모델을 훈련하는데 적합한지, 적합하다면 상대적으로 얼마나 적합한지 판단할 수 있어야 한다. (참고)
기존의 모델은 블랙박스모델로 의사결정의 근거를 제공해주지 않는다. 하지마나 Interpretable한 모델은 의사결정에 영향을 미친 요소들을 제공해줌에 따라 사람이 모델을 활용할 때 논의할 수 있는 근거를 제시한다.

모델 적합 이전에 파악 가능하고 이해할 수 있는 모델의 속성으로 다음 세가지 조건에 부합해야 함

모델 적합 이후에 모델로부터 배울 수 있는 속성으로 다음 질문을 충족해야 함

interpretability을 위한 방법론들을 평가하기 위한 방법을 연구
대체로 시각화를 통해서 어떤 Feature가 중요했는지 설명하고자 시도하고 있으나 점차 모델이 대형화되가는 시점에서 사람이 시각화를 통해서 모두 확인하는 것은 사실상 불가능함

Interpretability를 Model에게 요구하는 것은 유의미하다고 보여지나 실제로 이게 비즈니스에서 어떤 가치를 추가적으로 제공해줄 수 있는지를 확인하는 것

실제로 데이터 과학자들이 Intepretabie Model을 만드는 것보다 Interpretable Model이 무엇을 말하고 있는지 해석하는데 어려움을 겪는 경우가 있음 (참고)