어떤 데이터를 어떻게 볼지는 엔지니어링 이전에 결정되어야 한다.
데이터가 없는 회사는 없다. 활용하지 않을 뿐이다. 모든 회사는 데이터를 가지고 있다. 그리고 그러한 데이터가 보다 전사에 체계적으로 흐를 필요가 있다고 느낄 시점이 될 때 대부분 회사는 데이터 조직을 꾸리기 위해서 시장에 뛰어든다.
그리고 그 시작점으로 데이터 엔지니어 채용부터 시작하는 경우들이 있다. 하지만 실상은 그렇지 않다. 오히려 문제를 복잡하게 만들 수 있다. 앞서 언급한 것처럼 모든 조직에는 이미 데이터가 있다. 그 데이터를 어떻게 하면 기술적인 관점에서 효율적으로 설계해서 활용할 수 있을지 모르는 것 뿐이다.
그리고 기술적으로 데이터를 잘 활용하기 위해서는 결국 비즈니스에서 데이터를 어떻게 볼지가 결정이 되어야 한다. 이 부분은 Business Intelligence(BI)라는 영역으로 많은 사람들이 대시보드로 인지하는 영역이기도 하다.
BI를 제대로 설계하기 위해서는 메트릭(Metric)과 디멘젼(Dimension)에 대한 이해가 필요하다. 단순하게 생각해보면 디멘젼은 정성적인 개념으로 데이터를 보고자 하는 관점이라고 생각하면 된다. 그리고 그 관점에 따라 보려는 것을 메트릭이라고 생각하보면 이해가 쉽다.
커머스를 예로 든다고 하면 "고객"이 하나의 디멘젼일 수 있다. 우리는 이 고객을 이제 신규/재구매 고객 등으로 나눠서 볼 수 있으며, 이에 따라 메트릭 역시 고객수 → 신규/재구매 고객수 등으로 나눠지게 된다. 즉 디멘젼은 메트릭을 나눠서 보는데 사용된다.
이러한 관점은 애시당초 기술적 관점이기전에 비즈니스적인 관점이다. 회사의 비전을 달성하기 위한 미션이 있고 이 미션을 완료하기 위한 전략과 전술이 있다. 이러한 전술까지의 구조가 잘 정리되어 있다면 이 전술을 행하기 위해 봐야 하는 데이터의 관점이 있다. 여기까지는 비즈니스 단에서 정리가 되어야 한다.
여기까지가 정리되어 있다면 급한대로 기존 개발자들을 통해서도 데이터가 전사에 흐르도록 대시보드나 KPI를 모니터링하는 것은 충분히 구현이 가능하다. 잘, 지속가능하게, 확장가능하게 구현하기 위해서 데이터엔지니어가 필요할 수 있지만 아직 그 단계가 아닐 수도 있다는 것이다.
그런데 데이터 조직부터 꾸리려고 하다보면, 이 조직의 구성원의 커리어 등 조직적 관점의 품이 더 들어갈 수도 있는 상황이 생기게 때문에 실상 문제의 본질로부터 멀어지는 결과가 생기게 된다.
데이터 엔지니어가 필요한 시점에는 데이터가 다양한 관점으로 적재되고 이를 결합해서 봐야 하는데, 이 정도까지 깊게 살펴 봐야지 가설검증이나 성과가 도출될 것이라고 판단될 때이다. 물론 이는 주관적인 의견일 수 있지만 중요한 것은 데이터는 정말 하나의 도구로 어떻게 쓸지에 따라 가치가 결정될 수 있기에 쓰고자 하는 관점이 잘 정리 되지 않는다면 아무리 좋은 기술을 써봤자 "Garbage In Garbage Out"일 수 밖에 없다.