Data

Data

[Python]Top2Vec 각 Document 별 Topic 찾기

배경 * Top2Vec으로 토픽 모델링 이후 각 Document 별 해당되는 토픽을 알고자 할 때 해결책 * Top2Vec의 Github 코드를 확인해보니, Single Underscore Function으로 있는 _calculate_documents_topic의 Return Value로 doc_top, doc_dist를 갖는데, doc_top은 각각 Document 별 Topic에 대한 List이다. 그리고 doc_dist는 Topic Vector와의 Distance 값이다. * "model.search_

By Bongho, Lee

XAI

Anchors - High Precision Model-Agnostic Explanations

* Anchor는 쉽게 생각하면 Blackbox 모델의 특정 Instance에 대한 설명을 If-Then 형태의 Rule 형태로 설명한다고 보면 된다. * Anchors는 기존 Blackbox Model을 최대한 적게 호출하기 위해서, graph search algorithm와 Reinforcement learning techniques (MAB)를 적절히 활용한다. * Rule이라는 것이 하단의 그림처럼 Feature에 기반해서 범위 형태로 설명하기 때문에 현재 가지고 있지 않은 데이터에 대해서도

By Bongho, Lee

Data

5년간의 블로그 글이 모두 날아가버렸다.

오늘도습관처럼 개인블로그를 접속하였다. 그리고 블로그가 초기화된 것을 확인했다.  원인은 찾았지만, 다행스럽게 이미 백업스크립트를 운용중이었던지라,  최근 7일간 백업 데이터를 다운로드 받아서 복구를 진행하려고 하였다. 그런데 복구가 되지 않았다. 데이터베이스는 매일 덤프를 받고 있었는데, 덤프된 파일의 용량이 Zero Byte인 것이다. 즉 제대로 되고 있지 않았던 것이다. 그래서 과거 데이터까지 확인을 해보았더니

By Bongho, Lee

Data

[Python] Top2Vec WordCloud 한글 깨짐 해결하기(임시방편)

Top2Vec 내재 Function 중 하나인 generate_topic_wordcloud를 실행했는데 한글이 모두 깨져나온다. 출력물의 형태를 보니, 대략 Wordcloud 패키지를 쓰지 않았을까 생각되어 Top2Vec의 github를 보니 Wordcloud Package를 쓰고 있길래 별도 Function으로 분리시켜스 "font_path"부분에 Font를 넣어주고, Top2Vec Class에서 별도로 분리가 되었기 때문에 self를 모두 제거하고 model을 넘겨주는 식으로

By Bongho, Lee

Data

[Python]지하철 승하차인원 Open API로 가지고 오기

사업쪽 담당자가 Python으로 공부하다가, 종종 물어보러 온다. 오늘은 지하철 승하차인원을 엑셀로 안받고 직접 API로 가지고 오는 법 물어보길래 최소한으로 코드를 작성해주었다. Python Crawling은 익숙치 않아서 겸사겸사 기록용으로 남긴다. Auth는 [서울시 데이터광장](https://data.seoul.go.kr/)가서 받아오면 된다. import pandas as pd import requests result=requests.get(f'

By Bongho, Lee

Python

VSCODE 다크모드에서 pyLDA Visualization시 배경색 변경

Python Jupyter Notebook을 웹에서 실행했을 때는 뒤 배경이 다음과 같이 하얀색으로 나와서 볼 수가 있다. 그런데 vscode에서 다크모드 상황에서 실행하면 아래와 비슷한 형태로 나오게 되면시각화 이후에 제대로 볼 수가 없는 상황이 발생한다. 이 때는 lib/python3.8/site-packages/pyLDAvis 디렉토리에 존재하는 _display.py의 일부를 수정해줘야 한다. 현재 버전 기준, 27,

By Bongho, Lee

Causal Inference

담배와 폐암간 오래된 논란에 대해서

담배는 폐암을 유발할까? 1950년 후반, 통계학, 의학계를 둘러싸고 아주 격렬하게 토론이 벌어진 주제가 있었습니다. 바로 "담배는 폐암을 유발하는가?"입니다. 어떤 사람들은 당연히, 담배가 폐암을 유발한다고 말합니다. 하지만 여전히 이 문제는 명확하게 정리가 된 바가 없습니다. 여전히 "크게 관련이 있어보일뿐"이라는 말로 정리가 되고 있을 뿐입니다. 오늘

By Bongho, Lee
데이터 분석팀은 왜 비즈니스에서 중요한 역할을 하지 못하고 있을까?

Data

데이터 분석팀은 왜 비즈니스에서 중요한 역할을 하지 못하고 있을까?

지금의 회사에서도 일한 지도 벌써 2년이 되어간다. 데이터엔지니어부터 시작해 마케팅 기획을 거쳐 분석가로 정착하나 싶었는데 한발 더 나아가 사업관리까지 한다. 감사하게도 2년 동안 데이터 관련 업무를 하는 사람들을 많이 만날 수 있었다. 다양한 산업의 사람과 대화하며 데이터 분석 관련해 공통으로 발생하는 아쉬운 점을 들었다. 바로 데이터 분석팀을 만들기 전에 기대한

By Bongho, Lee

Data

부트스트래핑(Bootstrapping)으로 의사결정 분석하기

주어진 상황 * 한 기업이 미국 주요 주의 도시별로,  약 한달간 서비스를 시범운영 * 각 주 별로 도시의 수가 다른 상황 * 각 주 별 수익의 분포가 정규분포와 같은 기존 분포를 따르는지 확신할 수 없는 상황에서 비모수 데이터로 기간도 짧고, 데이터 양도 많지 않은 상황이다. * 초기 데이터는 다음과 같다. state_idcity_idsales0KK0237549889.391KK0249276755.

By Bongho, Lee

Data

데이터 기반 문화를 만들기 위한 10단계

1.문화는 위로부터 시작되어야 한다. * 결국 Top-Down의 의지가 매우 중요하다. * 방법론은 차치하고서라도,  증거 기반으로 목표를 제시하는 자세가 Top-Level부터 있어야 한다. 2.측정을 해야 한다. 꾸준히 해야 한다. * 측정할 수 없는 것은 관리할 수 없다. * 무엇을 통해서 측정할지 고민해봐야 한다. * 불확실성을 줄인다는 관점에서 측정지표를 만들고 꾸준히 데이터를 모으면 트렌드를 알 수

By Bongho, Lee