데이터 기반 문화를 만들기 위한 10단계

1.문화는 위로부터 시작되어야 한다.

  • 결국 Top-Down의 의지가 매우 중요하다.
  • 방법론은 차치하고서라도,  증거 기반으로 목표를 제시하는 자세가 Top-Level부터 있어야 한다.

2.측정을 해야 한다. 꾸준히 해야 한다.

  • 측정할 수 없는 것은 관리할 수 없다.
  • 무엇을 통해서 측정할지 고민해봐야 한다.
  • 불확실성을 줄인다는 관점에서 측정지표를 만들고 꾸준히 데이터를 모으면 트렌드를 알 수 있고, 업무에서의 패턴을 찾을 수 있게 된다.
  • 장기적으로 예측 정확도는 높일 수 있다.

3.데이터 사이언티스트는 비즈니스 최전선으로 나와야 한다.

  • 데이터사이언티스트는 격리 대상이 아니다. 비즈니스 리더와 자주 어울릴 수 있게 도와줘야 한다. 이를 통해서 데이터 사이언티스트가 비즈니스 가치를 목표로 삼을 수 있도록 가이드 해줘야 한다.
  • 도메인 지식과 기술 노하우를 융합할 수 있도록 도와줘야 하고, 조직의 장이 개발을 할 수는 없더라도 수치에 기반한 대화에 익숙할 수 있도록 도와줘야 한다.

4.기본적인 데이터 접근은 최대한 쉽게 만들어야 한다.

  • 더 많은 직원들이 자신의 업무에서 중요한 문제를 해결하는데 있어 필요로 하는 데이터를 원활히 접근하고 활용할 수 있도록 셀프서비스를 강화하고,
  • 동시에 적절히 큐레이팅된 대시보드 구축을 통해서 많은 구성원이 빠르게 회사의 핵심 지표나 전략적으로 중요한 이슈를 읽을 수 있도록 함으로써 데이터 접근을 용이하게 만들어야 한다.

5.불확실성을 측정해야 한다.

  • 100% 확신할 수 있는 의사결정은 없다.
  • 불확실성을 측정할려고 할 때, 불확실성의 원인에 대해서도 논의할 수 있는 기회가 생기게 될 것이고, 나아가 실험하는 문화가 자연스럽게 탄생할 수 있다.

6.쉬운 것부터 시작해서 성과를 만들어야 한다.

  • 처음부터 완벽할 수는 없다. 오히려 완벽한 계획은 변경에 상당한 시간이 소요되기 때문에 조직에 상당한 부담으로 다가올 수 있다.
  • 작더라도 확실한 과제부터 시도해봄으로써 성공률을 높이고 이를 기반으로 스케일을 키워보는 것이 차라리 낫다.

7. 적절한 시점의 교육이 가장 효과적이다.

  • 한번에 빅뱅으로 교육프로그램을 제공한다 한들, 그 많은 기술을 한 번에 필요로 하는 직원은 없다.
  • 중요한 것은 필요한 시점 직전에, 교육을 들을 수 있게 해주는 것이다.

8.내부 구성원을 위해서 분석기술을 활용해야 한다.

  • 모두가 개발자가 될 필요는 없다.
  • 하지만 최소한의 외국어가 생활에 도움이 될 수 있는 것처럼 업무 자동화(RPA)등을 통해서 기술을 활용하도록 지원할 수 있다면, 기술부서는 조금 더 난이도 있는 업무에 시간을 좀 더 할애할 수 있을 것이다.

9. 단기적 관점에서는 유연성보다는 일관성이 중요하다.

  • 앞서 언급한 직원 교육 차원에서, 다양한 기술을 허용하는 것은 좋으나, 단기적으로는 범용적으로 쓰이는 하나의 언어(예: Python)를 사용하도록 권함으로써, 회사에 데이터 기반 문화가 빠르게 정착되도록 할 필요가 있다.

10.분석적사고로 설명하는 습관을 가져야 한다.

  • 분석은 하나의 절대적인 답과 접근 방식이 있는 것이 아니다.  합의가 있을 뿐이다.
  • 그리고 전 구성원이 만족할 수 있는 합의가 있기 위해서는 많은 분석적 대화가 오고갈 필요가 있다.
  • 리더들은 구성원보다 이런 문화 조성에 앞장서야 한다. 훈수는 잠시 내려놓을 필요가 있다.

References

Read more

다중공선성은 잘못된 인과추론 결과를 만들어낼 수 있습니다.

다중공선성은 잘못된 인과추론 결과를 만들어낼 수 있습니다.

다중공선성(Multi Collinearity) * **Multi-Collinearity(다중공선성)**는 독립 변수들 간의 강한 상관관계가 존재할 때 발생합니다. 즉, 한 독립 변수가 다른 독립 변수에 의해 설명될 수 있을 정도로 상관관계가 높은 상황을 의미합니다. * 이 문제는 주로 회귀 분석에서 나타나며, 변수들 간의 관계를 해석하는 데 있어 큰 장애물이 될 수 있습니다. * 일반적인 회귀식을 $Y=

Bayesian P-Value는 불확실성을 감안하여 모델의 적합도를 평가합니다.

Bayesian P-Value는 불확실성을 감안하여 모델의 적합도를 평가합니다.

Bayesian P- Value * Bayesian P-Value는 **모델의 적합도(goodness-of-fit)**를 평가하는 데 사용됩니다. * 사후 분포(posterior distribution)를 이용하여 실제 데이터와 모델이 생성한 예상 데이터를 비교함으로써, 관측된 데이터가 모델에 의해 얼마나 잘 설명되는지를 평가합니다. * 빈도주의 p-값은 "관찰된 데이터보다 극단적인 데이터가 나올 확률"을 계산하지만, Bayesian P-Value는 "모델이 실제

Non-Identifiability는 Model Parameter를 고유하게 식별할 수 없는 현상입니다.

Non-Identifiability는 Model Parameter를 고유하게 식별할 수 없는 현상입니다.

Non Identifiability * Non-Identifiability는 주어진 데이터와 모델에 대해 특정 파라미터를 고유하게 식별할 수 없는 상황을 의미합니다. 즉, 여러 파라미터 값들이 동일한 데이터를 생성할 수 있으며, 이로 인해 특정 파라미터 값을 확정적으로 추정하기 어렵게 됩니다. * 베이지안 추론에서 Non-Identifiability는 사후 분포가 특정 파라미터 값에 대해 명확하게 수렴하지 않고, 여러 값들에 대해 비슷한 확률을

Rootgram은 큰 분산을 갖거나 비정규 형태의 데이터를 위한 히스토그램입니다.

Rootgram은 큰 분산을 갖거나 비정규 형태의 데이터를 위한 히스토그램입니다.

Rootgram * 히스토그램의 변형으로 데이터가 비정규적이거나 큰 분산을 가지는 경우, 정확한 분포를 파악하기 위해 사용됩니다. * 일반적으로 히스토그램은 데이터의 빈도를 직접적으로 나타내기 때문에, 큰 값이 빈번하게 발생하는 경우 상대적으로 작은 값을 잘 드러내지 못하는 경향이 있습니다. 반면, Rootgram은 빈도를 제곱근 형태로 변환하여, 데이터 분포의 차이를 더 잘 시각화할 수 있도록 돕습니다 * 여기서