데이터 기반 문화를 만들기 위한 10단계

1.문화는 위로부터 시작되어야 한다.

  • 결국 Top-Down의 의지가 매우 중요하다.
  • 방법론은 차치하고서라도,  증거 기반으로 목표를 제시하는 자세가 Top-Level부터 있어야 한다.

2.측정을 해야 한다. 꾸준히 해야 한다.

  • 측정할 수 없는 것은 관리할 수 없다.
  • 무엇을 통해서 측정할지 고민해봐야 한다.
  • 불확실성을 줄인다는 관점에서 측정지표를 만들고 꾸준히 데이터를 모으면 트렌드를 알 수 있고, 업무에서의 패턴을 찾을 수 있게 된다.
  • 장기적으로 예측 정확도는 높일 수 있다.

3.데이터 사이언티스트는 비즈니스 최전선으로 나와야 한다.

  • 데이터사이언티스트는 격리 대상이 아니다. 비즈니스 리더와 자주 어울릴 수 있게 도와줘야 한다. 이를 통해서 데이터 사이언티스트가 비즈니스 가치를 목표로 삼을 수 있도록 가이드 해줘야 한다.
  • 도메인 지식과 기술 노하우를 융합할 수 있도록 도와줘야 하고, 조직의 장이 개발을 할 수는 없더라도 수치에 기반한 대화에 익숙할 수 있도록 도와줘야 한다.

4.기본적인 데이터 접근은 최대한 쉽게 만들어야 한다.

  • 더 많은 직원들이 자신의 업무에서 중요한 문제를 해결하는데 있어 필요로 하는 데이터를 원활히 접근하고 활용할 수 있도록 셀프서비스를 강화하고,
  • 동시에 적절히 큐레이팅된 대시보드 구축을 통해서 많은 구성원이 빠르게 회사의 핵심 지표나 전략적으로 중요한 이슈를 읽을 수 있도록 함으로써 데이터 접근을 용이하게 만들어야 한다.

5.불확실성을 측정해야 한다.

  • 100% 확신할 수 있는 의사결정은 없다.
  • 불확실성을 측정할려고 할 때, 불확실성의 원인에 대해서도 논의할 수 있는 기회가 생기게 될 것이고, 나아가 실험하는 문화가 자연스럽게 탄생할 수 있다.

6.쉬운 것부터 시작해서 성과를 만들어야 한다.

  • 처음부터 완벽할 수는 없다. 오히려 완벽한 계획은 변경에 상당한 시간이 소요되기 때문에 조직에 상당한 부담으로 다가올 수 있다.
  • 작더라도 확실한 과제부터 시도해봄으로써 성공률을 높이고 이를 기반으로 스케일을 키워보는 것이 차라리 낫다.

7. 적절한 시점의 교육이 가장 효과적이다.

  • 한번에 빅뱅으로 교육프로그램을 제공한다 한들, 그 많은 기술을 한 번에 필요로 하는 직원은 없다.
  • 중요한 것은 필요한 시점 직전에, 교육을 들을 수 있게 해주는 것이다.

8.내부 구성원을 위해서 분석기술을 활용해야 한다.

  • 모두가 개발자가 될 필요는 없다.
  • 하지만 최소한의 외국어가 생활에 도움이 될 수 있는 것처럼 업무 자동화(RPA)등을 통해서 기술을 활용하도록 지원할 수 있다면, 기술부서는 조금 더 난이도 있는 업무에 시간을 좀 더 할애할 수 있을 것이다.

9. 단기적 관점에서는 유연성보다는 일관성이 중요하다.

  • 앞서 언급한 직원 교육 차원에서, 다양한 기술을 허용하는 것은 좋으나, 단기적으로는 범용적으로 쓰이는 하나의 언어(예: Python)를 사용하도록 권함으로써, 회사에 데이터 기반 문화가 빠르게 정착되도록 할 필요가 있다.

10.분석적사고로 설명하는 습관을 가져야 한다.

  • 분석은 하나의 절대적인 답과 접근 방식이 있는 것이 아니다.  합의가 있을 뿐이다.
  • 그리고 전 구성원이 만족할 수 있는 합의가 있기 위해서는 많은 분석적 대화가 오고갈 필요가 있다.
  • 리더들은 구성원보다 이런 문화 조성에 앞장서야 한다. 훈수는 잠시 내려놓을 필요가 있다.

References

Read more

ML 코드 작성시 유의사항

ML 코드 작성시 유의사항

유의사항 * 코드의 작성방식: 다른사람이 코드를 읽고 이해할 수 있는가? * 코드의 성능: 의도치 않은 부작용이 발생하는가? * 코드의 복잡성: 유스케이스에 비해 설계가 과도하고 부족한가 * 개선의 용이성: ML코드가 지속적으로 리팩토링 되는가? 코드 작성방식에 따른 개발자(+데이터과학자)의 유형 분류 출처 * 머신러닝 엔지니어링 인 액션

ELPD는 모델이 새로운 데이터를 얼마나 잘 예측하는지를 보여주는 지표입니다.

ELPD는 모델이 새로운 데이터를 얼마나 잘 예측하는지를 보여주는 지표입니다.

기본 개념 * ELPD(Expected Log Predictive Density)는 모델이 새로운 데이터를 얼마나 잘 예측하는지를 나타내는 지표로, 주어진 데이터 포인트에 대해 모델이 예측한 확률의 로그 값(로그확률)을 합산한 것입니다. $$\text{ELPD} = \sum_{i=1}^{n} \log p(y_i \mid \text{data})$$ * $n$: 데이터 포인트의 수 * $y_i$ : 실제 관측된

잭나이프 샘플링은 표본의 변동성 추정 방법중 하나입니다.

잭나이프 샘플링은 표본의 변동성 추정 방법중 하나입니다.

잭나이프 샘플링이란? * 잭나이프 샘플링은 표본 데이터에서 하나의 관측치를 제거한 여러 하위 샘플을 만들어, 이들 샘플에 대해 통계량을 계산한 후 그 결과를 바탕으로 전체 표본의 변동성을 추정하는 방법입니다. 잭 * 나이프는 주로 표본의 분산을 추정하거나 통계량의 편향을 줄이기 위해 사용됩니다. 예시 * 주어진 표본이 [x1, x2, x3, x4]라면, 잭나이프 샘플링은 다음과 같은

정확한 단위로 대화를 하는 것이 중요합니다.

정확한 단위로 대화를 하는 것이 중요합니다.

자전거를 타고 약속장소로 이동하는 중이었습니다. 근처 과일 가게에 이런 문구가 적혀있었습니다. "한 상자에 X,000원" 과일을 직접 사먹지는 않는 편이기 때문에 가격은 모르지만 꽤 매력적인 가격대였습니다. 그래서 잠시 "살까?" 망설였습니다. 하지만 이내 자전거를 타고 다시 가던 길을 갔습니다. 한 상자 안에 몇개가 들어가 있을지를 몰랐기 때문입니다.