Bongho, Lee

Bongho, Lee

Data

베이지안 최적화(Bayesian Optimization)

Bayesian Optimization * Bayesian Optimization은 Training을 통해 파악하게 되는 Parameter와 별개로, 사전에 사람이 직접 입력해야 하는 HyperParameter를 최적화하기 위한 방법으로 아래와 같은 식과 같이 임의의 함수 $f(x)$를 가정하고, 이 $f(x)$를 최대화하는 $x$를 찾아 나가는 방식으로 최적의 Hyperparameter를 찾는다 * "Bayesian"이라는 단어가 의미하는 바처럼 이전

By Bongho, Lee

Book

[책]리더를 위한 멘탈 수업

정보 * 저자 / 출판사: 윤대현,장은지 / 인플루엔셜 * 윤대현님: 현 서울대병원 정신건강의학과 교수 * 장은지님: 전 맥킨지리더십센터장 * 핵심키워드: 멘탈, 마음, 자기연민 * 점수: 3.5 / 5 * 구매링크: 링크 인상깊었던 부분 * 좋은 리더십이 보여준 다섯가지 공통적인 특징 * 첫째, 자신과 일의 의미 발견 * 둘째, 긍정적 사고와 관점 * 셋째, 신체적-정신적 에너지 관리 * 넷째, 관계의 연결 * 다섯째, 몰입

By Bongho, Lee

Data

중복이미지 검출(Duplicate Image Detection)

모델 선정시 요구사항 * 현재 가지고 있는 이미지 데이터 규모 * 중복이미지 검출시 정확도 * Inference 시 실시간 여부 쓸 수 있는 기술 * FileName: File Naming Scheme에 대해서 통제가 가능해야 * FileHash: File이 Binary여야 하고, 조금만 변경이 발생해도 Hash값이 달라질 수 있음 * Perceptual Hash: File size나 Format이 달라도 Pixel에 기반해서 식별 가능하고 속도가 빠른

By Bongho, Lee

Business

믿음과 불안사이를 잇는 다리: 커뮤니케이션

팀장이 실무까지 하면서 팀을 매니징하는 것은 매우 어렵다. 따라서 팀장으로서 적절히 업무는 위임을 잘하는 것도 기술이다. 그리고 위임을 하기 위해서는 팀원에 대한 적절한 신뢰가 필요하다. 그런데 신뢰를 하려면 충분한 경험과 관계가 쌓여야 한다. 이를 위해서는 업무 완수능력에 대한 입증이 필요하다. 업무 완수능력은 피터 드러커 교수님도 "프로페셔널의 조건"에서

By Bongho, Lee
회사에서 데이터 너머를 바라볼 줄 아는 힘

Business

회사에서 데이터 너머를 바라볼 줄 아는 힘

배경 * CEO Staff의 위치를 벗어나 프로덕트 실무로 팀을 이끈지 이제 한 달이 막 지나갔다. * 정말 많은 일들이 있었고, 이런 일로 팀들간에 조율이 필요할 수도 있겠다도 깨달을 수 있는 시간이었다. * 그야말로 "너도 옳고, 너도 옳다"라는 형태로 일의 시비를 정할 수 없는 게 이런 상황이구나도 깨달을 수 있는 시간이었다.

By Bongho, Lee

Data

BERTopic 주요 내용 요약 및 정리

어떤 모델인가? * Topic Modeling 기법 중 하나이다. * BERT 기반 Embedding + Class-based TF-IDF를 사용한 것이 아이디어의 핵심이다. 구조 * 크게 세 단계로 나눠서 볼 수 있다. * 첫 번째 BERT를 이용해서 각 Document에 대해서 Embedding을 한다. * 두 번째 UMAP을 이용해서 각 Document Vector의 차원을 축소한다. * 세 번째 HDBSCAN을 이용해서 클러스터링을 한다. 이 때

By Bongho, Lee

Data

Transformer를 위한 Custom Dataset 만들기

Background * Transformer에서 제공하는 Pipeline을 이용해서 Sentiment Classifier를 하는데 기존  Dataframe을 그대로 이용하려니 GPU를 활용하더라도 상당히 느려서 Efficiency를 높이기 위해서 Dataset으로 변환을 하기로 결정하였다. Usage 1.한개의 csv 파일로 만들 때 from datasets import load_dataset dataset = load_dataset('csv', data_files='my_file.csv') 2.두

By Bongho, Lee

Data

Gensim 기본 LDA 대신, Mallet LDA 사용시 몇가지 이슈 대처법

1.pyLDAvis 사용하려고 할 때 Inference 에러 발생시 다음과 작성했는데,  다음과 같은 에러가 발생할 경우가 있다. pyLDAvis.enable_notebook() vis = pyLDAvis.gensim.prepare(mallet_model, corpus, id2word) vis 'LdaMallet' object has no attribute 'inference' Mallet Model은 gensim 기본 모델로  변환해서 사용하면 정상적으로 사용할 수 있다. import

By Bongho, Lee

Book

[책]OKR로 빠르게 성장하기

스타트업은 보통 PMF(Product Market Fit)이라든가, 주로 생존에 관련된 부분에 초점을 맞춰 성장하고 시장에 성공적으로 안착해오지만, 어느정도 성장 궤도에 오르게 되면 문화나 성과관리가 중요해진다. 그런데 스타트업의 경우 빠르게 성장하는 것에 중점을 맞추다면, 기존 기업 대비 상대적으로 조직문화나 성과관리에 대해서 상당히 취약한 경우를 많이 보게 된다. 그래서 OKR 책을 보게

By Bongho, Lee

Business

일 잘하는 사람이 잘하는 두가지: Escalation, Delegation

신입사원 시절, 질문 하나를 무심코 선배에게 했다가 본사로 호출을 당한 적이 있다. 질문이 마치 고객이 하는 것 마냥, 구체적이지 않고 질문을 하는 나의 말투에서 나의 무지가 보인다는 뜻이었다. 그리고 나서 그 때 선배에게 들었던 이야기가 말하고 오늘 말하려는 주제이다. 선배는 나에게 일을 잘하려면 Escalation (윗선 보고), Delegation(위임)만 기억하라고

By Bongho, Lee

Data

합성 데이터(Synthetic Data)에 대해서

합성 데이터 * AI 알고리즘을 활용해 인위적으로 생성한 데이터 * 데이터 사용과 고객 정보 보호 규제를 위반하지 않고, AI를 개발할 수 있음 생성 방법 * Stochastic process * Rule-based data generation * Deep generative model 생성 시 평가 기준 * Computation * Human Labor * System Complexity * Information 생성 방법 별 Challenges Rule-based data generation * 1) 규모가 커짐에

By Bongho, Lee
도어대시(Doordash) 데이터팀이 말하는 다른 팀과 "잘" 대화하기 위한 팁

Business

도어대시(Doordash) 데이터팀이 말하는 다른 팀과 "잘" 대화하기 위한 팁

Intro 데이터 팀이 아무리 좋은 분석을 하더라도 비즈니스 팀과 경영진과 공유되지 않으면데이터 팀의 성공은 보장할 수가 없다. 그래서 효과적인 커뮤니케이션은 데이터 팀이 성공하기 위한 중요한 전제조건이라고 볼 수 있다. 이를 위한 팁을 정리해보면 다음과 같다. Tip TL;DR을 사용하여 중요한 내용을 명확하게 전달하기 다른 팀이 데이터 팀이 작성한 모든 문서를

By Bongho, Lee