Data

Data

확률변수(Random Variable), 그리고 확률질량(밀도)함수

솔직히 말하지만, 확률변수, 그리고 확률질량(밀도)힘수를 이해하는데 생각보다 많은 시간이 걸렸습니다. 배우는 것은 아주 초기에 배웠다 할지언정 암기를 넣어 이해하는데 상당한 시간이 걸렸습니다. 그래서 생각이 날 때 다시 한 번 기록해봅니다. Random Variable(확률변수) 확률이라는 단어도 어려운데 변수라니, 정말 어려운 단어의 결합이구나라고 오랜 시간 생각 해온 것 같습니다. 단어

By Bongho, Lee

Data

인과추론(Causal Inference) – Inverse Probability Weight

역확률 가중치(Inverse Probability Weighting) * 모집단에서 일부 데이터가 유실되었을 때(예: Selection Bias) 남은 데이터로 유사 모집단(Pseudo Population)을 생성해서 통계를 계산하는 기법 * 1952년에 제시된 꽤 오래된 기법으로 각 데이터에 데이터가 치료군(Treatment)에 속할 가능성의 역수를 가중치(Weight)로 곱해주는 방식 * 개념만 쉽게 본다고 하면 Propensity Score Matching은

By Bongho, Lee

Data

인과추론(Causal Inference) – Inverse Probability Weight

역확률 가중치(Inverse Probability Weighting) * 모집단에서 일부 데이터가 유실되었을 때(예: Selection Bias) 남은 데이터로 유사 모집단(Pseudo Population)을 생성해서 통계를 계산하는 기법 * 1952년에 제시된 꽤 오래된 기법으로 각 데이터에 데이터가 치료군(Treatment)에 속할 가능성의 역수를 가중치(Weight)로 곱해주는 방식 * 개념만 쉽게 본다고 하면 Propensity Score Matching은

By Bongho, Lee

Causal Inference

인과추론(Causal Inference) – Backdoor Criterion

왜 필요한가? * Unmeasured Parents, 즉 Graph에서 Parent로 표시되더라도 측정이 안되거나, 관측이 안된 Parent가 있을 것이라고 할 때 대체가능한 조정가능 데이터셋( Alternative Set of variables to adjust for)가 필요하다. * Graph의 구조가 어떤 형태일 때 주어진 데이터만으로 인과관계를 판단할 수 있는지, 그 기준이 필요한데 그 중의 하나가 Backdoor criterion이다. Backdoor Criterion

By Bongho, Lee

Data

인과추론(Causal Inference) – Intervention

Intervention * 통계학 연구의 궁극적인 목적은 개입(Intervention)의 효과를 예측하는 것 * RCT에서는 결과에 영향을 줄 수 있는 요인 단하나만 제외하고 다른 요인은 고정하거나 랜덤하도록 변하도록 조절해서 측정할 수 있다. * 하지만 RCT가 어려울 경우 데이터를 기록하는 관측연구(Observational study)를 수행하게 된다. 그런데 관측연구에서는 인과관계를 상관관계로부터 유도해내기가 쉽지 않다. * X → Y

By Bongho, Lee

Causal Inference

인과추론(Causal Inference) - Chain & Fork

Disclaimer * 본인이 공부하고 본인이 이해한만큼만 정리되어 있으니 질답 및 태클은 언제든지 환영합니다. Data & Graph * 구조적 인과 모델(Structural Casual Model)이란 변수들 간의 인과 관계를 구조적인 식으로 나타낸 것 * 구성요소는 \( U, V, f \)로 되어 있으며,\(U\)는 외생변수, \(V\)는 내생변수, \(f\)는 모델 내에서 다른 변수들에 따라

By Bongho, Lee

Causal Inference

매일 사용할지 모르는 간단한 인과추론 방식에 대해서(Confounder)

Confounder * 수치 비교할 때 통상 문제를 일으키는 변수가 있다. → Confounder 변수라고 한다. * X → Y 라는 인과관계를 판단하고 싶을 때 X,Y에 모두 영향을 미치는 변수이다. * Confounder 변수는 종종 Random Factor에 기반해서 하지 않고 임의로 그룹을 나눴을 때 발생한다. * 예시: 명상하는 사람이 심장병 사망율이 그렇지 않은 사람보다 낮다라는 결과에 대해서 운동이나,

By Bongho, Lee

Data

Facebook - Prophet

Prophet? * Facebook에서 만든 시계열 데이터의 예측을 위한 패키지 * 전통적 시계열 모델의 경우 데이터가 정상성(Stationary)을 만족해야지 사용할 수 있으나, Prophet은 이런 것을 고민할 필요가 없다. * R과 Python에서 모두 작동을 하기 때문에 언어에 대한 제한이 없어서 이후에 활용하기좋다 * 관련된 논문은 Forecasting at scale으로 내용을 대략 훑어보니 Prophet은 GAM모형을 활용한 것으로

By Bongho, Lee

Data

Gradient Boosting Decision Tree Algorithm

앙상블 모델이란? * 주로 모델을 융합하는 전략과 방법을 통칭해서 말함 → 대표적으로 배깅과 부스팅이 있음 * 부스팅의 기본적인 컨셉은 분류기를 연달아 직렬적으로 연결해서 기존 층서 잘못 분류한 샘플에 대해서 가중치를 높게 두고 훈련을 하는 형태 → 사람이 실제로 학습할 때 오답노트를 활용하는 것과 비슷한 컨셉 → 편향을 줄여나가는 과정 * 배깅은 병렬적으로 훈련을 진행하는 것으로 데이터를

By Bongho, Lee

SQL

SQL로 For Loop(For문/반복작업) 구현하기

1.왜 이게 필요했을까? * 여러 언어를 오고가면서 분석작업을 진행할 때가 많은데, * 가끔은 SQL로만 하고 싶을 때가 있고, 그 때마다 문제가 되었던 부분 중 하나가 For Loop였다. 그래서 찾아보다가 알게 되었다. 2.구현하기 * presto(0.241)에서 진행하였다. A.기본 Sequence Table 생성 --Sequence Table 생성 CREATE TABLE temp.sequence AS

By Bongho, Lee

Book

[7.5/10]데이터를 활용하고 해석하는 역량, 데이터 리터러시

첫인상 데이터 리터러시라는 것, 데이터를 활용하고 해석하는 역량은 매우 중요하다. 하지만 이미 이 업계에 나름 상당량의 시간을 보낸 나로서는 데이터 리터러시를 어떠한 프레임으로 설명할지 궁금하였다. 그리고 이 책을 읽으면서 알게된 선입견이 하나 있었는데, 내가 데이터 전문가라고 바라보는 사람들의 범위 대체로 과학자, 또는 기술자에 국한되어 있었다는 것이다. 정작 개인적으로는 경영학 관점에서

By Bongho, Lee

Data

데이터 분석시 데이터간 거리를 측정하는 9가지 방법에 대해서

거리 측정방식은 생각보다 다양하다. * 어떤 방식을 언제 써야 하는지 아는 것은 기본이다. * 이 것보다 더 많은 측정 방식이 있지만, 우선 숙지를 위해서 요약 및 기록. 거리 측정방식 Euclidian Distance * 가장 많이 쓰이는 거리 측정 방식 * Feature 별로 단위가 다를 수 있기 때문에 정규화(Normalize) 필요함 * 차원이 높아질 경우 계산량이 급격히

By Bongho, Lee

Book

[책]8.5/10, 숫자에 약한 사람들을 위한 통계학 수업

한 줄평 * 통계에 대한 하나의 에세이를 읽는 것 같은 좋은 책 책을 되짚어 보기 위한 질문들 책에 대해 가장 좋았던 부분들 * 원서 기준 “통계의 아름다움” 타이틀이 마음에 들었다. 번안한 제목은 아무래도 독서층을 노리고 한 것 같으나, 통계를 전공했고 데이터를 좋아하는 사람에게 있어 가벼운 주제부터 검정, 베이즈 등의 주제까지 너무나도 재미있게

By Bongho, Lee