Data

Data

[책] 투자철학의 스케일을 보여준다. 소로스 투자특강

"소로스"는 워런버핏과 더불어 성공한 한 시대의 투자가로서 아흔을 넘어 여전히 정력적으로 활동하고 있다. 하지만 그에 대해서 우리가 아는 것은 거의 없다. 나 역시도 "영국과 싸워 이긴 헤지펀드 투자가" 정도로만 기억하고 있을 뿐이다. 그런 그가 생전 듣지도 못했던 대학 "중부유럽대학"에서 특강을 했다는 이야기를

By Bongho, Lee

Data

Target Encoding에 대한 간략한 요약

Target Encoding은 해당 Category에 나타난 Target Variable의 평균을 이용해서 Categorical Values를 대체하는 방식이다. 구성원의 코드를 리뷰하던 도중, Label Encoder를 쓴 부분들을 보다가 Label Encoder를 쓰는게 맞는가에 대한 생각이 들어 대안을 생각해보던 중 Target Encoder가 떠올랐다. 평균이라는 하나의 Value로 Categorical Value를 대체하기 때문에 간편하기도 하고, Label Encoder로 했을 경우 대치된 수치간의

By Bongho, Lee

Data

Transformer 요약 정리

* 강점 * Attention을 활용, 반복을 최소화하고, Positional Encoding을 활용해서 parallelization 지원 * Attention을 활용하여 Input Sequence에서 다른 Sequence의 어떠한 부분이 중요한지 결정 * 구조 * $X$개의 Encoder와 $X$의 Decoder로 구성되어 있음 * Encoder와 Decoder의 수는 동일하며, Encoder는 모두 동일한 구조, but Weight Matrix를 공유하지 않음 * Encoder는 Self-Attention과 Feed-Forward로 구성되어 있음 * Self Attention에서는 $K,

By Bongho, Lee

Data

Long Tail Event에서 예측시 정확도 높이기 (Doordash Case)

Long Tail Event * Long Tail Event는 Right Skewed Distribution 에서 발생하는 특징 중 하나로, Outlier와도 비슷해보이지만, Outlier대비 상당히 길게 꼬리형태로 길게 이어지는 Data Point들이 보이고, 이들의 빈도가 상대적으로 높은 편이다. 이러한 형태는 이커머스나 배달앱 등 여러 곳에서 자주 보이는 형태이다. 전체 회원을 RFM 관점으로 나눠서 봐도 Long Tail Event를 찾아

By Bongho, Lee

Data

Doordash의 Image Selection Model

요약 배경 * 이미지는 고객에게 어필하기 위한 가장 좋은 데이터 소스 * 초기에는 적은 이미지로 간단한 로직을 가지고 Feasibility Test  시작 * 현재 가게를 꾸미는 이미지는 사장님이 임의로 선택하고 있으나, 가게의 현 상황을 충분히 반영하고 있지는 못함 초기 개발과정(MVP) * 현 상황에서 대해서 Personalization Team이 빠르게 분석하면서 Iteration을 돌기 시작함 * 적절한 정책을 수립해서

By Bongho, Lee

Data

Expectation Maximization (EM) Algorithm

Expectation Maximization(EM) Algorithm은 Latent Variable이 있는 상황에서 MLE (Maximum Likelihood Estimation)을 하기 위한 Algorithm이다. MLE가 관측된 데이터가 어떤 모델(Function)로부터 나왔는지를 계산하기 위해 "Max"인 Likelihood(가능도)를 계산하는 모델이라고 할 때 여기서 Latent Variable은 쉽게 생각하면 관측이 되지 못한 변수를 의미한다. 우리가 평소 공부할

By Bongho, Lee

Data

데이터 모델로서 MVP(Minimum Viable Product)는 어떤 모습이어야 할까

데이터 모델로서 MVP(Minimum Viable Product)는 어떤 모습이어야 할까? MVP 자체가 프로덕트를 포함한 단어이기 때문에 데이터 모델이란 단어보다는 데이터 프로덕트라는 표현으로 접근하는게 더 좋지 않을까 생각한다. MVP로서 데이터 프로덕트라고 한들 아주 다르지는 않을 것이라고 생각한다. 린스타트업의 저자 에릭 리스(Eric Ries)는 MVP(최소기능제품)은 결국 제품이 제공하는 핵심여량과

By Bongho, Lee

Business

시니어 데이터 과학자 면접에서 보는 것

※ 해당 내용은 회사를 대표하지 않는, 개인의 의견입니다. 2012년 HBR에서 Data Scientist를 "The Sexiest Job of the 21st Century"로 묘사한바 있다. 이 아티클을 기점으로 한국에서는 최근 몇년 사이 빅데이터, 데이터 과학, 4차산업혁명이 맞물려서 데이터 과학은 아주 한한 키워드가 되었고 많은 사람들이 데이터 과학자를 희망하면서 공부하였고, 또 취업을 하였다.

By Bongho, Lee

Data

데이터 모델에 대한 수식없는 설명

배경 데이터 관련 업무로 돌아온지 4개월이 넘어간다.  사업의 목적을 달성하기 위해서 사업 등의 비개발부서와 현재 시점 뿐 만 아니라 장기적인 관점의 과제를 두고 다양한 논의를 한다. 그렇게 논의를 하다보면 종종 데이터 모델에 대해서 만능인것마냥 상황과 상관없이 항상 절대적으로 높은 수준의 서비스를 제공해줄 수 있을 것으로 기대하는 분들이 종종 있다. 이런

By Bongho, Lee