Bongho Lee

Bongho Lee

Data

Target Encoding에 대한 간략한 요약

Target Encoding은 해당 Category에 나타난 Target Variable의 평균을 이용해서 Categorical Values를 대체하는 방식이다. 구성원의 코드를 리뷰하던 도중, Label Encoder를 쓴 부분들을 보다가 Label Encoder를 쓰는게 맞는가에 대한 생각이 들어 대안을 생각해보던 중 Target Encoder가 떠올랐다. 평균이라는 하나의 Value로 Categorical Value를 대체하기 때문에 간편하기도 하고, Label Encoder로 했을 경우 대치된 수치간의

Book

[책]퀀트의정석, 퀀트에 관한 큰 그림을 보여준다.

Covid-19이 창궐할 즈음, 올웨더 포트폴리오를 시작으로, 정량투자, 시스템 트레이딩에 대해서 관심을 가지기 시작하였던 것같다. 그 이후 꾸준히 정량적인 투자를 하고 있지만, 뭐랄까 전체적인 그림 없이, 코끼리의 몸만 매번 만져가는 식의 투자는 개인적으로 맞지 않아 흥미가 많이 빠졌던 중에 퀀트대디님의 책, "퀀트의 정석"이 출간되었다고 하여 책을 읽어보게 되었다.

Data

Transformer 요약 정리

* 강점 * Attention을 활용, 반복을 최소화하고, Positional Encoding을 활용해서 parallelization 지원 * Attention을 활용하여 Input Sequence에서 다른 Sequence의 어떠한 부분이 중요한지 결정 * 구조 * $X$개의 Encoder와 $X$의 Decoder로 구성되어 있음 * Encoder와 Decoder의 수는 동일하며, Encoder는 모두 동일한 구조, but Weight Matrix를 공유하지 않음 * Encoder는 Self-Attention과 Feed-Forward로 구성되어 있음 * Self Attention에서는 $K,

Data

Long Tail Event에서 예측시 정확도 높이기 (Doordash Case)

Long Tail Event * Long Tail Event는 Right Skewed Distribution 에서 발생하는 특징 중 하나로, Outlier와도 비슷해보이지만, Outlier대비 상당히 길게 꼬리형태로 길게 이어지는 Data Point들이 보이고, 이들의 빈도가 상대적으로 높은 편이다. 이러한 형태는 이커머스나 배달앱 등 여러 곳에서 자주 보이는 형태이다. 전체 회원을 RFM 관점으로 나눠서 봐도 Long Tail Event를 찾아

Book

관조, 주관을 떠나 고요한 마음으로 사물을 관찰하는 힘

최근에 직장인과 문과생을 위한 수학교실 (이하 직문수)를 가볍게나마 들을 기회가 있었다. 수학이라는 거대한 학문내 주제들이 어떻게 연결되는지를 거시적인 관점에서 다루는 강의였는데, 개인적으로는 꽤 큰 소득이 많았던 강의였다. 무엇보다 "수학"이라는 것이 어떤 절대적인 진리라기보다는 탄탄한 근거를 통해 설명하는 학문이라는 것을 정확하게 알게 되었다. 개인적으로 데이터 과학 업에서

Life

모든 일에 "Why"로 시작하라

아버지와 함께 오후 일정을 소화 후 집에 오니 오후 6시였다. 해야할 것들은 많다고 느껴지는데, 무엇을 해야 할지 모르겠다라는 생각이 머리를 맴돌았다.  그래서 오전에 읽을까 하여 Read it Later로 북마크해놓은 ‘챗GPT의 아버지’ 샘 알트만은 어떤 사람인가 글을 읽기 시작하였다. 이 글을 대략 빠르게 훑어서 마지막에 갈 때 쯤, 그 생각이 들었다.

Book

린든 존슨 대통령이 보여준 비전의 리더십

혼돈의 시대, 리더의 탄생  마지막 부분을 읽고 있다. 현재 "3부 리더의 탄생 - 그들은 어떻게 세상을 이끌어가는가?"를 읽고 있고 오늘 드디어 마지막 대통령인 린든 존슨대통령 부분을 읽고 있다. 교사를 하다가 아버지를 따라 정치에 입문해서 케네디 대통령의 암살로 대통령에 오르면서 빠르게 재선까지 준비해야 했던 그는 정치 생활에서 비전을

Book

신뢰가 지속되는 팀을 위해 필요한 요소: 투명성

혼돈의 시대, 리더의 탄생 의 거의 막바지에 이르고 있다. 현재는 프랭클린 D. 루즈벨트 대통령(이하 FDR) 편을 읽고 있다. 그는 미국 유일의 4선 대통령으로 제 2차 세계대전 이후 미국 중심의 국제질서를 만든 사람으로 유명하다. 최근에는 그가 미국을 대공황에서 끌어내기 위해서 추진한 뉴딜이 한국 이전 정부의 디지털 뉴딜 때문에 다시 화제가

Data

Doordash의 Image Selection Model

요약 배경 * 이미지는 고객에게 어필하기 위한 가장 좋은 데이터 소스 * 초기에는 적은 이미지로 간단한 로직을 가지고 Feasibility Test  시작 * 현재 가게를 꾸미는 이미지는 사장님이 임의로 선택하고 있으나, 가게의 현 상황을 충분히 반영하고 있지는 못함 초기 개발과정(MVP) * 현 상황에서 대해서 Personalization Team이 빠르게 분석하면서 Iteration을 돌기 시작함 * 적절한 정책을 수립해서

Book

미래를 위하여 기록을 남겨라

어제에 이어 혼돈의 시대, 리더의 탄생을 읽고 있다. 링컨에 이어서 지금 읽고 있는 것은 시어도어 루스벨트 편이다. 종종 뉴딜을 집행해서 대공황을 타개한 FDR(프랭클린 D.루스벨트) 대통령과 헷갈리는 경우가 있는데, 시어도어 루스벨트 대통령은 거의 남남에 가까운 먼 혈족이고 먼저 대통령직을 역임했던 사람이다. 개인적으로는 이 분을  석탄파업을 종결짓기 위해 연방군을 파견했던,

Book

거래적 리더십과 변혁적 리더십, 리더십에 이분법은 없다.

얼마전부터  혼돈의 시대, 리더의 탄생 을 조금씩 읽고 있다. 최근 들어 이 책 외에도 많은 책들을 읽고 있는데, 잊지 않기 위해서 열심히 글을 써서 남기려고 시도 중에 있다. 현재 "3부 리더의 탄생 - 그들은 어떻게 세상을 이끌어가는가?"를 읽고 있고 오늘까지 해서 에이브러험 링컨 대통령이 노예해방 선언문을 작성하기

Life

중요한 것은 꺾인 신뢰, 500원 그 이상의 여파

아내가 갑자기 매운 것이 먹고 싶다고 했다. 그렇다고 아주 매운 것은 못 먹기 때문에, 그간 먹었던 것 중 아내가 매웠다고 한 음식을 제안하며 골라보라고 하였다.  그렇게 선정된 음식이 바로 골뱅이 무침과 소면이었다. 안그래도 작년에 동네 치킨집에서 먹은 골뱅이가 기억나 배달앱에서 찾아보았다. 골뱅이 무침이 있었고 17,000원이었다. 혹시 포장도 가능할까 보니

리더로서 체력과 지구력의 중요성

혼돈의 시대 리더의 탄생이라는 책을 읽고 있다. 아래 내용은 "9장. 변혁적 리더십 - 에이브러햄 링컨과 노예 해방 선언"의 일부분이다. 링컨은 리더로서 소명을 자각하고 노예해방을 위해 발걸음을 옮긴다. 노예해방이라니! 내가 가지고 있는 어떠한 문제보다도 거대하다. 혹자 누군가는 고도로 추상화된 문제이기 때문에 오히려 쉬울 수도 있다고 이야기 하지만, 그