1. Near Zero Variance (변수값의 분산을 보고 판단)

  • 1000개 데이터중 990개에서 A의 값이 0, 10개에서 변수 A의 값이 1인 경우는 모델링에서 유용하지 않기 때문에 제거

 

2. 상관관계를 기반으로 선정

  • 변수간 높은 상관관계가 존재할 경우, 두 변수가 같이 커지거나 작아지는 경향이 있다는 것
  • 이 경우 모델링의 성능이 떨어지거나 모델이 불안정해질 수 있음

 

3. 카이제곱 검정(Chi-Squared Test)

  • 예측 대상이 되는 분류와 변수 간에 독립성을 검정시, 관계가 독립이라면 해당 변수는 모델링에 중요하지 않다
  • 역으로 독립이 아니라면 모델링에 필요한 변수이다.
  • Datetime 변수는 별도로 문자나 수치형으로 치환해야지 사용 가능함.

4. Modeling을 기반으로 판단(eg. Random Forest Tress내 Feature Importance 속성 사용)