Bongho, Lee

Bongho, Lee

Book

[책] 주식시장을 이긴 전략들, 계량투자의 거친 기록들

* 주식시장을 이긴 전략들, 메트릭 스튜디오보다는 덜 아카데믹한 느낌이 나면서, 상당히 실전적인 내용을 다룬 책이다. * 마인드셋, 매매기법, 자금관리 측면에서 논문, 책, 실전 백테스트 내용을 다루다 보니 저자의 열정과 지식에도 감탄하지만, 한편으로는 다소 지루해 하는 나를 발견하였다. * 책 내용이 별로라기 보다는 내 자신이 얼마나 지금 절박한가에 대한 반증이라는 생각이 들었다. * 한편으로는 읽으면서

By Bongho, Lee

Data

인과추론(Causal Inference) – Inverse Probability Weight

역확률 가중치(Inverse Probability Weighting) * 모집단에서 일부 데이터가 유실되었을 때(예: Selection Bias) 남은 데이터로 유사 모집단(Pseudo Population)을 생성해서 통계를 계산하는 기법 * 1952년에 제시된 꽤 오래된 기법으로 각 데이터에 데이터가 치료군(Treatment)에 속할 가능성의 역수를 가중치(Weight)로 곱해주는 방식 * 개념만 쉽게 본다고 하면 Propensity Score Matching은

By Bongho, Lee

Data

인과추론(Causal Inference) – Inverse Probability Weight

역확률 가중치(Inverse Probability Weighting) * 모집단에서 일부 데이터가 유실되었을 때(예: Selection Bias) 남은 데이터로 유사 모집단(Pseudo Population)을 생성해서 통계를 계산하는 기법 * 1952년에 제시된 꽤 오래된 기법으로 각 데이터에 데이터가 치료군(Treatment)에 속할 가능성의 역수를 가중치(Weight)로 곱해주는 방식 * 개념만 쉽게 본다고 하면 Propensity Score Matching은

By Bongho, Lee

Book

[책] 강방천의 관점, "관점은 지켜내고 쌓아가는 것이 아닐까?

왜 읽었는가? * 투자 자체에 대한 관심을 가진지는 꽤 시간이 된 것 같다. 하지만 실행에 옮기지는 않았다. * 막상 실행을 하려니 “어떤 종목”을 “언제” 매수하고 매도하는가에 답변을 하지 못했던 까닭이다. * 자연스럽게 여기서 발생한 질문은 “나는 어떤 투자가인가”였었다. 그래서 이 책을 읽게 되었다. 발췌 * 내 것을 만들기 위해서는 어떤 과정을 거쳐야

By Bongho, Lee

Causal Inference

인과추론(Causal Inference) – Backdoor Criterion

왜 필요한가? * Unmeasured Parents, 즉 Graph에서 Parent로 표시되더라도 측정이 안되거나, 관측이 안된 Parent가 있을 것이라고 할 때 대체가능한 조정가능 데이터셋( Alternative Set of variables to adjust for)가 필요하다. * Graph의 구조가 어떤 형태일 때 주어진 데이터만으로 인과관계를 판단할 수 있는지, 그 기준이 필요한데 그 중의 하나가 Backdoor criterion이다. Backdoor Criterion

By Bongho, Lee

Data

인과추론(Causal Inference) – Intervention

Intervention * 통계학 연구의 궁극적인 목적은 개입(Intervention)의 효과를 예측하는 것 * RCT에서는 결과에 영향을 줄 수 있는 요인 단하나만 제외하고 다른 요인은 고정하거나 랜덤하도록 변하도록 조절해서 측정할 수 있다. * 하지만 RCT가 어려울 경우 데이터를 기록하는 관측연구(Observational study)를 수행하게 된다. 그런데 관측연구에서는 인과관계를 상관관계로부터 유도해내기가 쉽지 않다. * X → Y

By Bongho, Lee

Causal Inference

인과추론(Causal Inference) - Chain & Fork

Disclaimer * 본인이 공부하고 본인이 이해한만큼만 정리되어 있으니 질답 및 태클은 언제든지 환영합니다. Data & Graph * 구조적 인과 모델(Structural Casual Model)이란 변수들 간의 인과 관계를 구조적인 식으로 나타낸 것 * 구성요소는 \( U, V, f \)로 되어 있으며,\(U\)는 외생변수, \(V\)는 내생변수, \(f\)는 모델 내에서 다른 변수들에 따라

By Bongho, Lee

Causal Inference

매일 사용할지 모르는 간단한 인과추론 방식에 대해서(Confounder)

Confounder * 수치 비교할 때 통상 문제를 일으키는 변수가 있다. → Confounder 변수라고 한다. * X → Y 라는 인과관계를 판단하고 싶을 때 X,Y에 모두 영향을 미치는 변수이다. * Confounder 변수는 종종 Random Factor에 기반해서 하지 않고 임의로 그룹을 나눴을 때 발생한다. * 예시: 명상하는 사람이 심장병 사망율이 그렇지 않은 사람보다 낮다라는 결과에 대해서 운동이나,

By Bongho, Lee

Data

Facebook - Prophet

Prophet? * Facebook에서 만든 시계열 데이터의 예측을 위한 패키지 * 전통적 시계열 모델의 경우 데이터가 정상성(Stationary)을 만족해야지 사용할 수 있으나, Prophet은 이런 것을 고민할 필요가 없다. * R과 Python에서 모두 작동을 하기 때문에 언어에 대한 제한이 없어서 이후에 활용하기좋다 * 관련된 논문은 Forecasting at scale으로 내용을 대략 훑어보니 Prophet은 GAM모형을 활용한 것으로

By Bongho, Lee

Data

Gradient Boosting Decision Tree Algorithm

앙상블 모델이란? * 주로 모델을 융합하는 전략과 방법을 통칭해서 말함 → 대표적으로 배깅과 부스팅이 있음 * 부스팅의 기본적인 컨셉은 분류기를 연달아 직렬적으로 연결해서 기존 층서 잘못 분류한 샘플에 대해서 가중치를 높게 두고 훈련을 하는 형태 → 사람이 실제로 학습할 때 오답노트를 활용하는 것과 비슷한 컨셉 → 편향을 줄여나가는 과정 * 배깅은 병렬적으로 훈련을 진행하는 것으로 데이터를

By Bongho, Lee

Business

Story Telling으로써 KPI를 안다는 것.

왜 이런 생각을 하게 되었을까? KPI는 회사의 규모가 커지게 됨에 따라서 복잡해진다. 물론 복잡해지지 않을 수도 있다. 회사의 규모와 상관없이 복잡할 수도 있다. 이러한 KPI를 모든 직원이 알아야할까? 필요한 깊이는 각각 다를 수 있으나, 대략적인 구성도는 마치 책의 Chapter와 같이 인지하고 갈 필요가 있다는 생각이 들었다. 왜 구조를 이해할 필요가

By Bongho, Lee

SQL

SQL로 For Loop(For문/반복작업) 구현하기

1.왜 이게 필요했을까? * 여러 언어를 오고가면서 분석작업을 진행할 때가 많은데, * 가끔은 SQL로만 하고 싶을 때가 있고, 그 때마다 문제가 되었던 부분 중 하나가 For Loop였다. 그래서 찾아보다가 알게 되었다. 2.구현하기 * presto(0.241)에서 진행하였다. A.기본 Sequence Table 생성 --Sequence Table 생성 CREATE TABLE temp.sequence AS

By Bongho, Lee

Book

[7.5/10]데이터를 활용하고 해석하는 역량, 데이터 리터러시

첫인상 데이터 리터러시라는 것, 데이터를 활용하고 해석하는 역량은 매우 중요하다. 하지만 이미 이 업계에 나름 상당량의 시간을 보낸 나로서는 데이터 리터러시를 어떠한 프레임으로 설명할지 궁금하였다. 그리고 이 책을 읽으면서 알게된 선입견이 하나 있었는데, 내가 데이터 전문가라고 바라보는 사람들의 범위 대체로 과학자, 또는 기술자에 국한되어 있었다는 것이다. 정작 개인적으로는 경영학 관점에서

By Bongho, Lee