Data

Binomial과 Binary 분포는 서로 다릅니다.

Data

Binomial과 Binary 분포는 서로 다릅니다.

Binomial 분포 * Binomial 분포는 고정된 횟수의 독립적인 시행에서 각 시행이 동일한 성공 확률을 가지는 이항 실험에서 성공의 횟수를 나타내는 분포입니다 * Binomial 분포는 두 매개변수 $n$ (시행 횟수)과 $p$ (성공 확률)로 정의됩니다. * Binomial 분포의 확률 질량 함수(PMF)는 다음과 같습니다. * 여기서 $\binom{n}{k}$는 이항 계수로, n번의

A/B테스트 진행시 체크해야 하는 이슈 중 하나인 SRM

Data

A/B테스트 진행시 체크해야 하는 이슈 중 하나인 SRM

Definition * **Sample Ratio Mismatch(SRM)**는 실험 설계나 데이터 수집 과정에서 샘플의 비율이 의도한 비율과 일치하지 않는 상황을 의미합니다 * 예를 들어, A/B 테스트에서 두 그룹(A와 B)로 사용자 트래픽을 균등하게 나누려고 했으나, 실제 데이터에서는 비율이 맞지 않는 경우가 SRM입니다. * SRM은 실험의 무작위성(randomness)을 보장하고, 통계적 검증의 신뢰성을

📦그래프의 특정 하위 그래프를 추출하는 알고리즘, K-Core

Data

📦그래프의 특정 하위 그래프를 추출하는 알고리즘, K-Core

Definition * K-Core 알고리즘은 그래프 이론에서 사용되는 알고리즘으로, 그래프의 특정 부분을 추출하는 데 사용됩니다. * K-Core는 각 노드가 최소한 K개의 이웃 노드를 가지는 최대 부분 그래프를 의미합니다. Motivation * 소셜 네트워크, 생물학적 네트워크, 인터넷 구조 등 다양한 분야에서 밀집된 하위 구조를 식별하기 위해 등장했습니다. 개인적인 경험에서는 FDS 관련 사기거래를 집단으로 하는 업체를 탐지하기

Lemmatization과 Stemming은 활용목적이 다를 수 있다.

Data

Lemmatization과 Stemming은 활용목적이 다를 수 있다.

Lemmatization vs. Stemming 1. 정확성 vs. 단순화 * Lemmatization: 더 정교하고 정확한 방법입니다. 단어의 문법적 역할(품사)을 고려하여 원형을 찾아줍니다. 예를 들어, "better"는 "good"으로 변환됩니다. * Stemming: 단어의 어근만을 단순하게 추출합니다. 더 빠르고 간단하지만, 때로는 의도치 않은 결과를 초래할 수 있습니다. 예를 들어, "running&

패널데이터 분석에서 개체와 시간을 변동하기 위한 TwoWay Fixed Effect, Interactive Fixed Effects

Data

패널데이터 분석에서 개체와 시간을 변동하기 위한 TwoWay Fixed Effect, Interactive Fixed Effects

Two-Way Fixed Effects Definition * 두 가지 고정 효과(Two-Way Fixed Effects) 모델은 패널 데이터 분석에서 개체와 시간에 대한 변동을 모두 통제하는 방법입니다. * 이는 개체와 시간의 고정 효과를 모두 포함하여, 분석 대상 변수의 변동을 설명합니다. Motivation * 이 모델은 개체와 시간에 따른 변동을 모두 통제하여 더 정확한 분석을 가능하게 하기 위해 등장했습니다.

실험시스템의 신뢰성을 테스트하기 위한 방법,A/A테스트

Data

실험시스템의 신뢰성을 테스트하기 위한 방법,A/A테스트

Motivation * A/A 테스트는 A/B 테스트의 한 형태, 두 개의 동일한 버전(A와 A)을 비교하여 실험 시스템이 제대로 작동하는지 확인하는 방법입니다. * 주로 실험 설계 및 실행 프로세스의 신뢰성을 검증하고, 데이터 수집 및 분석 과정에서의 오류를 감지하는 데 사용됩니다. * 그 외에, 통계적 유의성 검증, 시스템 업데이트 후 검증, 데이터

정규분포 분산의 사전분포로 활용되는 Inverse Chi-Square 분포

Data

정규분포 분산의 사전분포로 활용되는 Inverse Chi-Square 분포

정의 * Inverse Chi-Square 분포는 주로 베이지안 통계에서 분산을 모델링하는 데 사용되는 확률 분포입니다. * 이는 Chi-Square 분포의 역분포로, 자유도와 스케일 파라미터에 의해 정의됩니다. * Inverse Chi-Square 분포는 베이지안 분석에서 사후 분포로 자주 사용되며, 특히 정규 분포의 분산에 대한 사전 분포로 활용됩니다. 장점 1. 베이지안 분석에 적합: 분산 추정을 위한 사전 분포로서 사용되며,

Author Topic Modeling, 저자 - 주제 관계를 포함한 토픽모델링

Data

Author Topic Modeling, 저자 - 주제 관계를 포함한 토픽모델링

Author Topic Modeling * **Author Topic Model(ATM)**은 텍스트 데이터에서 주제와 저자 간의 관계를 동시에 모델링하는 기법입니다. * 이는 저자가 작성한 문서의 주제 분포를 추정하고, 각 주제에 대한 저자의 기여도를 파악하는 데 유용합니다. * 학술 문서 분석, 소셜 미디어 데이터 분석 등 다양한 텍스트 마이닝 분야에서 사용됩니다. Motivation * 단순한 토픽 모델링 기법(

다항분포의 사전분포로 사용되는 다변량 확률분포, Dirichlet 분포

Data

다항분포의 사전분포로 사용되는 다변량 확률분포, Dirichlet 분포

정의 * Dirichlet 분포는 다항 분포의 사전 분포로서 사용되는 다변량 확률 분포입니다. * 각 항목이 0과 1 사이의 값을 가지며 모든 항목의 합이 1이 되는 특성을 가집니다. * 특히 베이지안 통계에서 다항 분포의 사전 분포로 자주 사용됩니다. 이는 켤레 분포(conjugate prior)의 특징을 갖습니다. * Dirichlet 분포의 켤레성은 다음과 같은 베이지안 업데이트 규칙을

Pydantic, 데이터 서빙시, Interface Data Validation 관련 라이브러리

Data

Pydantic, 데이터 서빙시, Interface Data Validation 관련 라이브러리

Motivation * Pydantic은 Validation Check를 위한 라이브러리로, 잘못된 데이터가 시스템에서 유입되고 운용되는 것을 막기 위한 라이브러리 * 비동기 웹 프레임워크인 FastAPI와 함께 많이 쓰임 @app.post("/items/") async def create_item(item: Item): # 비동기 처리를 포함한 작업 수행 return item Pros & Cons Pros * 데이터 모델을 정의 후에 자동으로 데이터

당신이 AI(ML)팀과 대화가 안되는 3가지 이유

Data

당신이 AI(ML)팀과 대화가 안되는 3가지 이유

ChatGPT의 등장 이후, 학계에서나 들렸던 다양한 인공지능의 언어들이 사회 곳곳에서 들리기 시작한다. 굳이 인공지능과 관련없던 일을 하는 사람들도 지금은 인공지능을 삶의 곳곳에서 자연스럽게 쓰고 있다. 불과 몇년 사이에 벌어진 일이다. 자연스럽게 많은 회사에서 AI를 비즈니스 전면에 도입하는 모습도 심심치 않게 볼 수 있다. 하지만  아직은 비용측면보다는 (AI를 활요하는) 기술기업임을 과시하고

여러 분포를 결합하여 데이터의 분포를 모델링하는 Mixture Model

Data

여러 분포를 결합하여 데이터의 분포를 모델링하는 Mixture Model

Mixture Model is * Mixture Model은 여러개의 분포를 결합하여 데이터의 전체 분포를 모델링함 * 이 때 각 분포는 Component라고 보통 불리며 데이터가 각 Component로부터 생성될 확률을 가중치로 갖음 * 통상 실무에서 Mixture Model이라고 하면 대체로 GMM(Gaussian Mixture Model)임 Motivation * 대부분의 현실 데이터는 단일 분포로 설명하기 어렵기 때문에 Mixture Model이 쓸모가 있음

학습시 "존재"하는 고유범주값을 고유정수값으로 치환하는 Label Encoder

Data

학습시 "존재"하는 고유범주값을 고유정수값으로 치환하는 Label Encoder

Background * 가게별로 예측치를 제공할 때 가게에 대한 식별자를 어떻게 전달할 것인가에 대해서 고민한 적이 있고, Label Encoder를 사용했던 적이 있다. Label Encoder is. * Label Encoder는 범주형 데이터를 수치형으로 변환하는 Encoder Motivation * Categorical Data를 ML이 이해할 수 있는 형태인 Numeric으로 변경 Pros & Cons Pros * 매우 구현이 간편하다. * 데이터셋이 크더라도 빠르게

이상치에 덜민감한 L1+L2 = Huber Loss

Data

이상치에 덜민감한 L1+L2 = Huber Loss

Why Huber Loss * 주요 모델링 업무 중 하나로 배달시간을 예측하다보면, Long Tail Distribution 형태의 모습을 자주 보게 된다. 이 부분에 대응하기 위해 Doordash도 비슷한 고민을 하는 과정에서 Loss Function을 수정하는 모습을 보여주었는데, 그외 Alternative로서 Huber Loss에 대해서 공부하고 적용해본 기억이 있다. 이에 대해서 정리해본다 Definition * Huber Loss는 평균 제곱 오차(

ONNX, 다양한 ML 프레임워크 간 모델의 상호운용 및 배포를 도와주는 프레임워크

Data

ONNX, 다양한 ML 프레임워크 간 모델의 상호운용 및 배포를 도와주는 프레임워크

Onnx is * Open Neural Network Exchange의 약자로 Pytorchs나 Tensorflow 등 다양한 Framework를 통해 생성된 모델을 결합하여 사용할 수 있도록 일관성과 상호 운용성을 보장하는 오픈소스 프레임워크 * ONNX는 표준화된 연산자 및 데이터 타입을 활용하여 다양한 플랫폼에서 호환성을 보장함 Motivation * Interoperability: 다양한 ML 프레임워크 간 모델을 호환해서 사용할 수 있도록 지원 * Standardization: 표준화된