Data - RE-CONSIDER-ED (Page 8)

Data

[Python] Neural Prophet

* NeuralProphet은 쉽게 이야기 하면 Neural Network(AR-Net)과 Prophet의 결합이다. * \(\hat{y_t}\)는 Trend, Seasonality, Event & Holiday, Regression for known future variable, Auto-regression, Regression for lagged observation of variables 각각 6개의 식으로 구성이 되어 있다. Trend * Trend는 신호의 전체 Variation 중 가장 많은 부분을 차지하고 있다. * Neural Prophet은

Data

[Python]Top2Vec 각 Document 별 Topic 찾기

배경 * Top2Vec으로 토픽 모델링 이후 각 Document 별 해당되는 토픽을 알고자 할 때 해결책 * Top2Vec의 Github 코드를 확인해보니, Single Underscore Function으로 있는 _calculate_documents_topic의 Return Value로 doc_top, doc_dist를 갖는데, doc_top은 각각 Document 별 Topic에 대한 List이다. 그리고 doc_dist는 Topic Vector와의 Distance 값이다. * "model.search_

XAI

Anchors - High Precision Model-Agnostic Explanations

* Anchor는 쉽게 생각하면 Blackbox 모델의 특정 Instance에 대한 설명을 If-Then 형태의 Rule 형태로 설명한다고 보면 된다. * Anchors는 기존 Blackbox Model을 최대한 적게 호출하기 위해서, graph search algorithm와 Reinforcement learning techniques (MAB)를 적절히 활용한다. * Rule이라는 것이 하단의 그림처럼 Feature에 기반해서 범위 형태로 설명하기 때문에 현재 가지고 있지 않은 데이터에 대해서도

Data

[풀잎스쿨]LIME(Local Interpretable Model-agnostic Explanations)

풀잎스쿨 - LIME 발표자료(설명가능한 인공지능 기획!) from Bong-Ho Lee

Data

5년간의 블로그 글이 모두 날아가버렸다.

오늘도습관처럼 개인블로그를 접속하였다. 그리고 블로그가 초기화된 것을 확인했다. 원인은 찾았지만, 다행스럽게 이미 백업스크립트를 운용중이었던지라, 최근 7일간 백업 데이터를 다운로드 받아서 복구를 진행하려고 하였다. 그런데 복구가 되지 않았다. 데이터베이스는 매일 덤프를 받고 있었는데, 덤프된 파일의 용량이 Zero Byte인 것이다. 즉 제대로 되고 있지 않았던 것이다. 그래서 과거 데이터까지 확인을 해보았더니

Data

LSA(Latent Semantic Analysis)

목적 LSA는 특이값 분해를 이용해서 문서 내에, 잠재되어 있는 의미(예: 토픽 등)를 파악한다. 특징 * 다른 문서의 유사도, 다른 단어의 유사도, 단어(쿼리)로부터 문서의 유사도를 구하는 것들이 가능해진다. * 특이값 분해는 \( A \)가 \(m \times n \) 행렬일 때 \( A=UΣV^\text{T} \) 과 같이 3개의 행렬의 곱으로 분해하는 것이다.

Data

[Python] Top2Vec WordCloud 한글 깨짐 해결하기(임시방편)

Top2Vec 내재 Function 중 하나인 generate_topic_wordcloud를 실행했는데 한글이 모두 깨져나온다. 출력물의 형태를 보니, 대략 Wordcloud 패키지를 쓰지 않았을까 생각되어 Top2Vec의 github를 보니 Wordcloud Package를 쓰고 있길래 별도 Function으로 분리시켜스 "font_path"부분에 Font를 넣어주고, Top2Vec Class에서 별도로 분리가 되었기 때문에 self를 모두 제거하고 model을 넘겨주는 식으로

Data

[Python]지하철 승하차인원 Open API로 가지고 오기

사업쪽 담당자가 Python으로 공부하다가, 종종 물어보러 온다. 오늘은 지하철 승하차인원을 엑셀로 안받고 직접 API로 가지고 오는 법 물어보길래 최소한으로 코드를 작성해주었다. Python Crawling은 익숙치 않아서 겸사겸사 기록용으로 남긴다. Auth는 [서울시 데이터광장](https://data.seoul.go.kr/)가서 받아오면 된다. import pandas as pd import requests result=requests.get(f'

Python

VSCODE 다크모드에서 pyLDA Visualization시 배경색 변경

Python Jupyter Notebook을 웹에서 실행했을 때는 뒤 배경이 다음과 같이 하얀색으로 나와서 볼 수가 있다. 그런데 vscode에서 다크모드 상황에서 실행하면 아래와 비슷한 형태로 나오게 되면시각화 이후에 제대로 볼 수가 없는 상황이 발생한다. 이 때는 lib/python3.8/site-packages/pyLDAvis 디렉토리에 존재하는 _display.py의 일부를 수정해줘야 한다. 현재 버전 기준, 27,

Causal Inference

담배와 폐암간 오래된 논란에 대해서

담배는 폐암을 유발할까? 1950년 후반, 통계학, 의학계를 둘러싸고 아주 격렬하게 토론이 벌어진 주제가 있었습니다. 바로 "담배는 폐암을 유발하는가?"입니다. 어떤 사람들은 당연히, 담배가 폐암을 유발한다고 말합니다. 하지만 여전히 이 문제는 명확하게 정리가 된 바가 없습니다. 여전히 "크게 관련이 있어보일뿐"이라는 말로 정리가 되고 있을 뿐입니다. 오늘

Data

데이터 분석팀은 왜 비즈니스에서 중요한 역할을 하지 못하고 있을까?

지금의 회사에서도 일한 지도 벌써 2년이 되어간다. 데이터엔지니어부터 시작해 마케팅 기획을 거쳐 분석가로 정착하나 싶었는데 한발 더 나아가 사업관리까지 한다. 감사하게도 2년 동안 데이터 관련 업무를 하는 사람들을 많이 만날 수 있었다. 다양한 산업의 사람과 대화하며 데이터 분석 관련해 공통으로 발생하는 아쉬운 점을 들었다. 바로 데이터 분석팀을 만들기 전에 기대한

XAI

[풀잎스쿨]CounterFactual Explanations

CounterFactual Explanations.pdf from Bong-Ho Lee

Data

Marginal Effect 정리

Marginal Effect는 Independent Variable에 변화가 발생했을 때 Dependent Variable이 어떻게 변하는를 보여준다. 이 때 다른 Independent Variable은 모두 상수로 고정이 되어 있어야 한다는 것이다. 좀 더 간결한 정의는 다음과 같다. Marginal effects are partial derivatives of the regression equation with respect to each variable in the model for each unit

Data

부트스트래핑(Bootstrapping)으로 의사결정 분석하기

주어진 상황 * 한 기업이 미국 주요 주의 도시별로, 약 한달간 서비스를 시범운영 * 각 주 별로 도시의 수가 다른 상황 * 각 주 별 수익의 분포가 정규분포와 같은 기존 분포를 따르는지 확신할 수 없는 상황에서 비모수 데이터로 기간도 짧고, 데이터 양도 많지 않은 상황이다. * 초기 데이터는 다음과 같다. state_idcity_idsales0KK0237549889.391KK0249276755.

Data

데이터 기반 문화를 만들기 위한 10단계

1.문화는 위로부터 시작되어야 한다. * 결국 Top-Down의 의지가 매우 중요하다. * 방법론은 차치하고서라도, 증거 기반으로 목표를 제시하는 자세가 Top-Level부터 있어야 한다. 2.측정을 해야 한다. 꾸준히 해야 한다. * 측정할 수 없는 것은 관리할 수 없다. * 무엇을 통해서 측정할지 고민해봐야 한다. * 불확실성을 줄인다는 관점에서 측정지표를 만들고 꾸준히 데이터를 모으면 트렌드를 알 수

SQL

SQL Ranking Window Function

Row_number() * Partition 별로 coluumn2 순으로 나열한 후에 Sequence를 생성해준다. SELECT *, ROW_NUMBER() OVER(PARTITION BY column1 ORDER BY column2 DESC) FROM table Rank() * Row_number()와 비슷하지만, 동일한 값을 가진 경우에 대해서는 동일한 Sequence를 매긴다. 대신 일부 Sequence가 Skip될 수 있다. 예를 들어 Row_number()를 쓸 경우 “1,