수식 없이 등분산에 대한 내용을 전달해보기
빅데이터라는 키워드를 시작으로 최근에는 AI까지 회사 전반에 걸쳐 데이터를 적용해서 업무를 하기 위해서 노력하는 분위기가 형성되어 있다. 정말 이해가 되지 않는 주관적이고 정성적인 이유를 기반으로 업무하는 상황에 비해서는 확실히 좋은 세상임에는 틀림없다.
하지만 하나만 아는 사람이 정말로 무섭다고, 숫자만 쓰면 모두 데이터 기반의 효율적인 의사결정이라고 간주하면서 다양한 수식을 전제조건에 대한 고려 없이 사용하는 경우도 이전보다 좀 더 늘어나다 보니 그 때마다 가볍게라도 전제조건에 대해서 설명해주게 된다.
그 중 하나가 회귀분석에 대한 전제조건이다. 그리고 오늘 이야기 나눌 내용은 그 전제조건 중의 하나인 등분산성이다. 나마저도 등분산성을 수식 기반으로 이해하고 있다가, 갑자기 설명을 하려고 하니 생각보다 쉽지 않다는 사실을 알았기에 이제 조금씩 수식 없이 내용을 풀어내려는 노력을 시도해볼까 한다.
분산이란 그 단어의 정의에 따르면 "어떤 대상의 흩어진 정도나 상태"(나무위키를 Reference로 쓰고 싶지 않지만 위키피디아보다 정의가 쉬어서 활용하였음)이다. 여기서 흩어졌다는 것은 기준점이 있다는 것이고, 통상 평균을 생각하면 쉽다.
평균이 있으니 데이터가 $>=2$이상일 텐데, 분산이 0이라는 의미는 무엇일까? 바로 데이터간 차이가 없다는 것을 의미한다. 쉽게 이야기하면 공통점을 갖고 묶기에 적합한 하나의 집단이라고 말해도 무방할 것이다. 반대로 말하면 분산이 크다는 것은 데이터들 간에 완전히 동일하지 않다는 의미와 동일한 것이다.
그래서 분산분석 등을 보면 집단내 분산과 집단간 분산의 비율을 통해서 비교하는데 이 부분은 오늘 이야기하려는 내용의 논외이니 스킵하도록 하자. 오늘 이야기하려는 등분산성이란 독립변수 $X$와 설명변수$Y$간의 관계에서 발생하는 노이즈(또는 오차항)이 모든 값에이 모든 $X$에 걸쳐 동일함(Constant)라는 것을 의미한다. 이차함수까지는 학교에서 배웠으니, 여기까지는 수식을 써서 다음과 같은 같은 식이 있다고 가정하자
$$Y=\beta_1X+\beta_0$$
이 때 노이즈는 $\epsilon = Y-Beta_1X-\beta_0$으로 정리할 수 있다. 회귀분석에는 이 $\epsilon$이 모든 $X$에 대해서 같은 분산을 가지고 있어야 한다고 가정한다. 보통 여기까지 설명하면 다들 힘들어하는데, 쉽게 생각하면 이렇다. 데이터는 모두 특정한 함수(=확률변수)로부터 관찰된 결과인데, 이 관측치가 변화할 수 있는 가능성의 범주가 모두 동일해야 한다는 것이다.
이 정도만 설명하고, 지나가는 편인데, 사실 마지막에 한마디는 꼭한다. 통계는 결국 불확실성을 줄이고자 할 때 모집단과 표본간의 분산간의 차이를 가지고 파악하고, 이는 금융공학에서는 리스크로 표현되기도 하니, 이 개념을 연결지어 봐달라고 말이다.
처음 이 방법을 제안한 골턴이 자식와 아버지의 키의 특징을 도출하는 과정을 보면 더 이해가 쉬울 것같기는 한데 각설하고 회귀분석이 어떤 다양한 확률변수에서 관찰된 관측치들을 대상으로 오차가 가장적은 식을 도출하는 개념으로 구성되어 있기 때문에 데이터의 퍼짐 정도는 우선 모두 동일해야지 선으로 이을 수 있다 정도로 이야기는 우선 갈무리해본다. 즉 등분산성은 꼭 확인하고 가는게 좋다.