탐색적 데이터 분석(EDA)

R을 활용한 데이터 과학(해들리위컴, 개럴 그롤문드 저)를 보면서 정리하였으며 지속 업데이트 예정.
EDA는 말그대로 탐색이기 때문에 자칫하면 무한정 헤매는 상황을 겪기 쉽기 때문에 풀고자 하는 질문이 무엇인지등에 대한 명확한 정의가 선행되어야 한다.

탐색적 데이터 분석은 다음과 같은 반복적 작업으로 구성되어 있음

  • 데이터에 대한 질문을 만든다.
  • 데이터를 시각화, 변형 및 모델링하여 질문에 대한 잡을 찾는다
  • 질문을 개선하거나, 새로운 질문을 만들기 위해 학습한 방법을 찾는다.

크게 다음과 같은 질문을 시도해볼 수 있다.

  • 변수 내에서 어떤 유형의 변동이 발생하는가?
  • 변수 간에 어떤 유형의 공변동이 발생하는가?

변동

  • 범주형 변수의 경우 Bar Chart, 연속형 변수의 경우 Histogram
    • Histogram의 경우 Bins Size에 따라서 패턴이 달라질 수 있기 때문에 다양한 Bin Size 탐색
    • 여러 Histogram을 겹쳐서 그리고 싶다면 geom_freqpoly() 사용
  • 질문
    • 어떤 값이 가장 일반적인가? 그 이유는 무엇인가?
    • 드물게 나타나는 값은 무엇인가? 그 이유는 무엇인가?
    • 비정상적인 패턴을 볼 수 있는가?
    • 유사한 값들의 군집이 있다면
      • 해당 데이터 내에 어떤 하위집단이 존재하는가? 어떻게 설명하거나 묘사가 가능한가?

공변동

  • 범주형 – 연속형의 경우 box plot을 사용
  • 범주형 – 범주형의 경우 geom_count을 사용
  • 연속형 – 연속형의 경우 scatter plot / geom_bin2d/ geom_hex 등을 사용
    • 연속형 변수의 경우 그룹화 사용
  • 모델링을 통해서 강력한 상관관계를 지닌 변수를 제거하고 탐색