Bongho, Lee

Bongho, Lee

Business

멀티버스는 이해하려고 해도 확률분포는 이해하려고 하지 않는다.

얼마전에 닥터스트레인지: 대혼돈의 멀티버스가 개봉하였다.  앤드게임 이후 마블은 어떻게 스토리를 끌고갈지 궁금하였는데, 스파이더맨을 기점으로 멀티버스라는 개념을 도입하면서 새롭게 스토리를 창조하고 연결해내기 시작하였다. 아직은 앤드게임 이후 멀티버스간의 스토리가 기존의 사용자로 하여금 응집성있는 스토리라고 인지할 수 있을지는 모르겠지만, 적절히 완다와 닥터 스트레인지의 개인적인 스토리를 최대한 활용하면서 사용자에게는 적절히 숨을 고르면서 스토리를 즐길

By Bongho, Lee

Life

감사를 정말 잘 표현하는 방법에 대해서

아는 사람들은 알겠지만, 5년 전쯤에 직장인이 "넵"을 습관적으로 사용하는 이른바 "넵"병이라고 불리는 현상을 정리한 글이 한동안 화제가 되었던 적이 있다. 워낙 여기저기 공유되었던 탓에 주위 사람으로부터 여러번 들었던 것 같다.  ( 그 글은 여기서 볼 수 있다. ) 얼마 전 회사 동료와 리더가 조심해야 하는 표현에

By Bongho, Lee

Data

[Python]Top2Vec 각 Document 별 Topic 찾기

배경 * Top2Vec으로 토픽 모델링 이후 각 Document 별 해당되는 토픽을 알고자 할 때 해결책 * Top2Vec의 Github 코드를 확인해보니, Single Underscore Function으로 있는 _calculate_documents_topic의 Return Value로 doc_top, doc_dist를 갖는데, doc_top은 각각 Document 별 Topic에 대한 List이다. 그리고 doc_dist는 Topic Vector와의 Distance 값이다. * "model.search_

By Bongho, Lee

XAI

Anchors - High Precision Model-Agnostic Explanations

* Anchor는 쉽게 생각하면 Blackbox 모델의 특정 Instance에 대한 설명을 If-Then 형태의 Rule 형태로 설명한다고 보면 된다. * Anchors는 기존 Blackbox Model을 최대한 적게 호출하기 위해서, graph search algorithm와 Reinforcement learning techniques (MAB)를 적절히 활용한다. * Rule이라는 것이 하단의 그림처럼 Feature에 기반해서 범위 형태로 설명하기 때문에 현재 가지고 있지 않은 데이터에 대해서도

By Bongho, Lee

Data

5년간의 블로그 글이 모두 날아가버렸다.

오늘도습관처럼 개인블로그를 접속하였다. 그리고 블로그가 초기화된 것을 확인했다.  원인은 찾았지만, 다행스럽게 이미 백업스크립트를 운용중이었던지라,  최근 7일간 백업 데이터를 다운로드 받아서 복구를 진행하려고 하였다. 그런데 복구가 되지 않았다. 데이터베이스는 매일 덤프를 받고 있었는데, 덤프된 파일의 용량이 Zero Byte인 것이다. 즉 제대로 되고 있지 않았던 것이다. 그래서 과거 데이터까지 확인을 해보았더니

By Bongho, Lee

Data

[Python] Top2Vec WordCloud 한글 깨짐 해결하기(임시방편)

Top2Vec 내재 Function 중 하나인 generate_topic_wordcloud를 실행했는데 한글이 모두 깨져나온다. 출력물의 형태를 보니, 대략 Wordcloud 패키지를 쓰지 않았을까 생각되어 Top2Vec의 github를 보니 Wordcloud Package를 쓰고 있길래 별도 Function으로 분리시켜스 "font_path"부분에 Font를 넣어주고, Top2Vec Class에서 별도로 분리가 되었기 때문에 self를 모두 제거하고 model을 넘겨주는 식으로

By Bongho, Lee

Data

[Python]지하철 승하차인원 Open API로 가지고 오기

사업쪽 담당자가 Python으로 공부하다가, 종종 물어보러 온다. 오늘은 지하철 승하차인원을 엑셀로 안받고 직접 API로 가지고 오는 법 물어보길래 최소한으로 코드를 작성해주었다. Python Crawling은 익숙치 않아서 겸사겸사 기록용으로 남긴다. Auth는 [서울시 데이터광장](https://data.seoul.go.kr/)가서 받아오면 된다. import pandas as pd import requests result=requests.get(f'

By Bongho, Lee

Python

VSCODE 다크모드에서 pyLDA Visualization시 배경색 변경

Python Jupyter Notebook을 웹에서 실행했을 때는 뒤 배경이 다음과 같이 하얀색으로 나와서 볼 수가 있다. 그런데 vscode에서 다크모드 상황에서 실행하면 아래와 비슷한 형태로 나오게 되면시각화 이후에 제대로 볼 수가 없는 상황이 발생한다. 이 때는 lib/python3.8/site-packages/pyLDAvis 디렉토리에 존재하는 _display.py의 일부를 수정해줘야 한다. 현재 버전 기준, 27,

By Bongho, Lee

Causal Inference

담배와 폐암간 오래된 논란에 대해서

담배는 폐암을 유발할까? 1950년 후반, 통계학, 의학계를 둘러싸고 아주 격렬하게 토론이 벌어진 주제가 있었습니다. 바로 "담배는 폐암을 유발하는가?"입니다. 어떤 사람들은 당연히, 담배가 폐암을 유발한다고 말합니다. 하지만 여전히 이 문제는 명확하게 정리가 된 바가 없습니다. 여전히 "크게 관련이 있어보일뿐"이라는 말로 정리가 되고 있을 뿐입니다. 오늘

By Bongho, Lee

Business

Task를 통해 Key Result가 달성되면 Objective는 자연스럽게 달성된다.

Object와 Key Result의 상관관계 * OKR = Objective + Key Result * Key Result: Objective를 달성했다는 것을 증빙하는 측정 기준 - Task를 통해서 Key Result를 달성했을때, Objective는 달성된다. * 예 - Objective: 한라산 정상 정복 - Key Result: Objective를 달성했다는 것을 증빙가능한 결과물 - 한라산 백록담이 보이도록 인증샷 찍기 - 고도계로 최소 1,930m 이상이

By Bongho, Lee
데이터 분석팀은 왜 비즈니스에서 중요한 역할을 하지 못하고 있을까?

Data

데이터 분석팀은 왜 비즈니스에서 중요한 역할을 하지 못하고 있을까?

지금의 회사에서도 일한 지도 벌써 2년이 되어간다. 데이터엔지니어부터 시작해 마케팅 기획을 거쳐 분석가로 정착하나 싶었는데 한발 더 나아가 사업관리까지 한다. 감사하게도 2년 동안 데이터 관련 업무를 하는 사람들을 많이 만날 수 있었다. 다양한 산업의 사람과 대화하며 데이터 분석 관련해 공통으로 발생하는 아쉬운 점을 들었다. 바로 데이터 분석팀을 만들기 전에 기대한

By Bongho, Lee