언제 데이터 과학자를 채용하고 조직을 구성해야할까?

정답은 비즈니스 목적을 달성하기 위해서 기존의 방안에서 답이 없다고 판단할 때이다.

보통 조직들은 팀을 신설하고 데이터과학자나 엔지니어를 채용한다. 그리고 바로 실적이 나오길 기대한다.  이 때 기다려줄 수 있는 관점은 철저히 비즈니스 관점에서 사업계획에 예정된 일자일 경우가 많다. 다시 말해서 기타 비즈니스 요인은 고려되지 않은 경우가 많다. 데이터 조직이 생기고 프로세스가 셋팅되고 등 기타 요인은 모두 고려되지 않는다.

사실 이러한 케이스는 문제와 해결방안이 전도되면서 흔히 볼 수 있는 상황이다. 머신러닝 등의 AI은 도구이고 데이터과학자나 엔지니어는 이 도구를 바닥부터 만들어서 최적화시키는 사람이다. 따라서 우선은 클라우드 플랫폼의 힘을 빌어 테스트를 하고 최적화하는 형태로 가야 하는데 사람부터 뽑아서 하려고 하면 당연히 비즈니스 임팩트를 제 때 내는데 차질이 발생할 수 밖에 없다. 다시 말해서 낚시를 해야 하는데 낚시를 하는 도구만 사서 하면 되는데 낚시대도 만들어야 하는 경우와 다를 바 없다.

이런 경우에는 목표를 설정해줄 수 있는 적절한 도메인 전문가나 PM, 그리고 데이터 엔지니어, 마지막으로 서비스에 적용을 도와줄 수 있는 개발자와 분석가 정도만 있으면 충분하다. 그리고 여기에 클라우드 등 낚시대와 같은 도구를 제공해주는 플랫폼에서 API를 쓰면 충분할 수 있다.

이렇게 해서 문제가 잘 해결되었고, 장기적인 로드맵 차원에서 효율화 등의 목적으로 커스터마이징을 해야할 때 기존에 있는 인원의 역량에서 확연히 벗어나게 되고 문제 해결방법론 자체를 고민하기 어려워지며 R&D의 필요성을 느낄 때 전문적인 데이터과학자가 필요하고 별도의 조직이 필요한 것이다.

사족이지만 최근에 여러 교육플랫폼에서 AI 관련 교육서비스를 제공하는데 대부분 앞서 언급한 예시를 빌어보면 낚시대를 만드는 방법은 엄청나게 소개한다. 한달만에 전문가가 될 것처럼 이야기하지만 통계학과 관련 공학의 역사는 한 두해만 이 나온게 아닌데, 대략 껍데기만 소개하는 부분이 많이 보인다. 그리고 이 상황에서 문제 해결능력을 키우는 부분은 언급하지 않은 채, 바로 기업에서 비즈니스 임팩트를 낼 것처럼 언급한다.

사실, 그게 말이 안되는 것이다. 비즈니스 임팩트를 내기 위해 고민해야할 부분은 이론과는 별개로 또 상당히 많다. 그게 사실 문제 해결에서는 더 중요할 수 있다. 이론을 중점으로 하는 통계학이 있고, 응용통계가 따로 있는 것처럼 AI도 Applied AI가 있을 수 있는데 이 고민이 너무 적은 편이 아닌가 싶다.

Read more

다중공선성은 잘못된 인과추론 결과를 만들어낼 수 있습니다.

다중공선성은 잘못된 인과추론 결과를 만들어낼 수 있습니다.

다중공선성(Multi Collinearity) * **Multi-Collinearity(다중공선성)**는 독립 변수들 간의 강한 상관관계가 존재할 때 발생합니다. 즉, 한 독립 변수가 다른 독립 변수에 의해 설명될 수 있을 정도로 상관관계가 높은 상황을 의미합니다. * 이 문제는 주로 회귀 분석에서 나타나며, 변수들 간의 관계를 해석하는 데 있어 큰 장애물이 될 수 있습니다. * 일반적인 회귀식을 $Y=

Bayesian P-Value는 불확실성을 감안하여 모델의 적합도를 평가합니다.

Bayesian P-Value는 불확실성을 감안하여 모델의 적합도를 평가합니다.

Bayesian P- Value * Bayesian P-Value는 **모델의 적합도(goodness-of-fit)**를 평가하는 데 사용됩니다. * 사후 분포(posterior distribution)를 이용하여 실제 데이터와 모델이 생성한 예상 데이터를 비교함으로써, 관측된 데이터가 모델에 의해 얼마나 잘 설명되는지를 평가합니다. * 빈도주의 p-값은 "관찰된 데이터보다 극단적인 데이터가 나올 확률"을 계산하지만, Bayesian P-Value는 "모델이 실제

Non-Identifiability는 Model Parameter를 고유하게 식별할 수 없는 현상입니다.

Non-Identifiability는 Model Parameter를 고유하게 식별할 수 없는 현상입니다.

Non Identifiability * Non-Identifiability는 주어진 데이터와 모델에 대해 특정 파라미터를 고유하게 식별할 수 없는 상황을 의미합니다. 즉, 여러 파라미터 값들이 동일한 데이터를 생성할 수 있으며, 이로 인해 특정 파라미터 값을 확정적으로 추정하기 어렵게 됩니다. * 베이지안 추론에서 Non-Identifiability는 사후 분포가 특정 파라미터 값에 대해 명확하게 수렴하지 않고, 여러 값들에 대해 비슷한 확률을

Rootgram은 큰 분산을 갖거나 비정규 형태의 데이터를 위한 히스토그램입니다.

Rootgram은 큰 분산을 갖거나 비정규 형태의 데이터를 위한 히스토그램입니다.

Rootgram * 히스토그램의 변형으로 데이터가 비정규적이거나 큰 분산을 가지는 경우, 정확한 분포를 파악하기 위해 사용됩니다. * 일반적으로 히스토그램은 데이터의 빈도를 직접적으로 나타내기 때문에, 큰 값이 빈번하게 발생하는 경우 상대적으로 작은 값을 잘 드러내지 못하는 경향이 있습니다. 반면, Rootgram은 빈도를 제곱근 형태로 변환하여, 데이터 분포의 차이를 더 잘 시각화할 수 있도록 돕습니다 * 여기서