Data

Pydantic, 데이터 서빙시, Interface Data Validation 관련 라이브러리

Pydantic, 데이터 서빙시, Interface Data Validation 관련 라이브러리

Motivation * Pydantic은 Validation Check를 위한 라이브러리로, 잘못된 데이터가 시스템에서 유입되고 운용되는 것을 막기 위한 라이브러리 * 비동기 웹 프레임워크인 FastAPI와 함께 많이 쓰임 @app.post("/items/") async def create_item(item: Item): # 비동기 처리를 포함한 작업 수행 return item Pros & Cons Pros * 데이터 모델을 정의 후에 자동으로 데이터 검증 후 변환
Bongho Lee
당신이 AI(ML)팀과 대화가 안되는 3가지 이유

당신이 AI(ML)팀과 대화가 안되는 3가지 이유

ChatGPT의 등장 이후, 학계에서나 들렸던 다양한 인공지능의 언어들이 사회 곳곳에서 들리기 시작한다. 굳이 인공지능과 관련없던 일을 하는 사람들도 지금은 인공지능을 삶의 곳곳에서 자연스럽게 쓰고 있다. 불과 몇년 사이에 벌어진 일이다. 자연스럽게 많은 회사에서 AI를 비즈니스 전면에 도입하는 모습도 심심치 않게 볼 수 있다. 하지만  아직은 비용측면보다는 (AI를 활요하는) 기술기업임을 과시하고
Bongho Lee
여러 분포를 결합하여 데이터의 분포를 모델링하는 Mixture Model

여러 분포를 결합하여 데이터의 분포를 모델링하는 Mixture Model

Mixture Model is * Mixture Model은 여러개의 분포를 결합하여 데이터의 전체 분포를 모델링함 * 이 때 각 분포는 Component라고 보통 불리며 데이터가 각 Component로부터 생성될 확률을 가중치로 갖음 * 통상 실무에서 Mixture Model이라고 하면 대체로 GMM(Gaussian Mixture Model)임 Motivation * 대부분의 현실 데이터는 단일 분포로 설명하기 어렵기 때문에 Mixture Model이 쓸모가 있음
Bongho Lee
학습시 "존재"하는 고유범주값을 고유정수값으로 치환하는 Label Encoder

학습시 "존재"하는 고유범주값을 고유정수값으로 치환하는 Label Encoder

Background * 가게별로 예측치를 제공할 때 가게에 대한 식별자를 어떻게 전달할 것인가에 대해서 고민한 적이 있고, Label Encoder를 사용했던 적이 있다. Label Encoder is. * Label Encoder는 범주형 데이터를 수치형으로 변환하는 Encoder Motivation * Categorical Data를 ML이 이해할 수 있는 형태인 Numeric으로 변경 Pros & Cons Pros * 매우 구현이 간편하다. * 데이터셋이 크더라도 빠르게 변환할
Bongho Lee
이상치에 덜민감한 L1+L2 = Huber Loss

이상치에 덜민감한 L1+L2 = Huber Loss

Why Huber Loss * 주요 모델링 업무 중 하나로 배달시간을 예측하다보면, Long Tail Distribution 형태의 모습을 자주 보게 된다. 이 부분에 대응하기 위해 Doordash도 비슷한 고민을 하는 과정에서 Loss Function을 수정하는 모습을 보여주었는데, 그외 Alternative로서 Huber Loss에 대해서 공부하고 적용해본 기억이 있다. 이에 대해서 정리해본다 Definition * Huber Loss는 평균 제곱 오차(
Bongho Lee
ONNX, 다양한 ML 프레임워크 간 모델의 상호운용 및 배포를 도와주는 프레임워크

ONNX, 다양한 ML 프레임워크 간 모델의 상호운용 및 배포를 도와주는 프레임워크

Onnx is * Open Neural Network Exchange의 약자로 Pytorchs나 Tensorflow 등 다양한 Framework를 통해 생성된 모델을 결합하여 사용할 수 있도록 일관성과 상호 운용성을 보장하는 오픈소스 프레임워크 * ONNX는 표준화된 연산자 및 데이터 타입을 활용하여 다양한 플랫폼에서 호환성을 보장함 Motivation * Interoperability: 다양한 ML 프레임워크 간 모델을 호환해서 사용할 수 있도록 지원 * Standardization: 표준화된
Bongho Lee