Bongho Lee

Bongho Lee
ATE 대비 CATE는 특정 하위그룹의 인과추론에 집중한다.

Data

ATE 대비 CATE는 특정 하위그룹의 인과추론에 집중한다.

Average Treatment Effect (ATE) * $ATE=E[Y(1)]−E[Y(0)]$ * 전체 인구에서 처치의 평균 효과를 측정하는 지표입니다. * ATE는 처치를 받은 경우와 받지 않은 경우의 결과 차이를 평균적으로 나타냅니다. * 장점 1. 단순하고 직관적: 전체 인구에 대한 처치의 평균 효과를 쉽게 이해할 수 있습니다. 2. 정책 결정에 유용: 전체 인구에 대한

삶의 방향성과 원칙

Life

삶의 방향성과 원칙

주말, 아이를 데리고 서울을 서울을 벗어나 근교로 나가기 위해 운전중이었습니다. 운전을 그리 좋아하지 않기에 긴장 속에 지도를 계속 주시하면서 간만에 운전을 하였습니다. 그러던 중 남산으로 올라가는 길과 남산터널로 가는 깃을 헷갈릴 뻔하여, 빠르게 가는 방향을 트는 사건이 발생했습니다.. 아침 일찍 나가는 길이었기에 차가 없어서 크게 문제가 없었지만, 도착지까지 가는 내내

Binomial과 Binary 분포는 서로 다릅니다.

Data

Binomial과 Binary 분포는 서로 다릅니다.

Binomial 분포 * Binomial 분포는 고정된 횟수의 독립적인 시행에서 각 시행이 동일한 성공 확률을 가지는 이항 실험에서 성공의 횟수를 나타내는 분포입니다 * Binomial 분포는 두 매개변수 $n$ (시행 횟수)과 $p$ (성공 확률)로 정의됩니다. * Binomial 분포의 확률 질량 함수(PMF)는 다음과 같습니다. * 여기서 $\binom{n}{k}$는 이항 계수로, n번의

[책]생각의 과정은 결과보다 중요하고 배울 수 있다.,"클리어씽킹"

[책]생각의 과정은 결과보다 중요하고 배울 수 있다.,"클리어씽킹"

"클리어 씽킹"이라는 책을 읽었습니다. 유튜브에서 엄청 광고를 하는 것을 보니, 바이럴을 태우려는 책이구나 싶었죠. 그래도 파남스트리트를 종종 접속해서 보는 입장에서는 이 책이 굉장히 궁금하였습니다. 생각에 대한 통찰력 있는 글을 여러차례 본 적이 있기 때문입니다. 그래서 전자책 사이트에 들어가서 책을 구매하려고 마음 먹고 평점을 보았습니다. 놀랍게도 4점 밑이었습니다.

모든일이 다 중요하고 급한것은 커리어에 좋지 않은 신호다.

Team

모든일이 다 중요하고 급한것은 커리어에 좋지 않은 신호다.

갑자기 엄청나게 많은 업무 요청이 들이닥칠 때가 있습니다. 그래서 어느 업무부터 진행하면 좋을지 문의하면 종종 이렇게 답변하던 분이 있었습니다. 모두 다 중요하고 급합니다. 중요도와 긴급도는 정도에 따라 구별되는 것이고, 중요한 업무가 있다면, 반대로 중요하지 않은 업무가 있다는 것입니다.그런데 모든 업무가 중요하다니, 굉장히 이상한 말이었습니다. 이 말을 돌아서서 집에 오는

A/B테스트 진행시 체크해야 하는 이슈 중 하나인 SRM

Data

A/B테스트 진행시 체크해야 하는 이슈 중 하나인 SRM

Definition * **Sample Ratio Mismatch(SRM)**는 실험 설계나 데이터 수집 과정에서 샘플의 비율이 의도한 비율과 일치하지 않는 상황을 의미합니다 * 예를 들어, A/B 테스트에서 두 그룹(A와 B)로 사용자 트래픽을 균등하게 나누려고 했으나, 실제 데이터에서는 비율이 맞지 않는 경우가 SRM입니다. * SRM은 실험의 무작위성(randomness)을 보장하고, 통계적 검증의 신뢰성을

📦그래프의 특정 하위 그래프를 추출하는 알고리즘, K-Core

Data

📦그래프의 특정 하위 그래프를 추출하는 알고리즘, K-Core

Definition * K-Core 알고리즘은 그래프 이론에서 사용되는 알고리즘으로, 그래프의 특정 부분을 추출하는 데 사용됩니다. * K-Core는 각 노드가 최소한 K개의 이웃 노드를 가지는 최대 부분 그래프를 의미합니다. Motivation * 소셜 네트워크, 생물학적 네트워크, 인터넷 구조 등 다양한 분야에서 밀집된 하위 구조를 식별하기 위해 등장했습니다. 개인적인 경험에서는 FDS 관련 사기거래를 집단으로 하는 업체를 탐지하기

Lemmatization과 Stemming은 활용목적이 다를 수 있다.

Data

Lemmatization과 Stemming은 활용목적이 다를 수 있다.

Lemmatization vs. Stemming 1. 정확성 vs. 단순화 * Lemmatization: 더 정교하고 정확한 방법입니다. 단어의 문법적 역할(품사)을 고려하여 원형을 찾아줍니다. 예를 들어, "better"는 "good"으로 변환됩니다. * Stemming: 단어의 어근만을 단순하게 추출합니다. 더 빠르고 간단하지만, 때로는 의도치 않은 결과를 초래할 수 있습니다. 예를 들어, "running&

리더와 실무자의 언어는 다르다 - 5W1H의 측면에서

Team

리더와 실무자의 언어는 다르다 - 5W1H의 측면에서

최근에 취업준비생의 프로젝트를 도와주는 멘토로서 일을 하고 있다. 사회 경험이 일천한 친구들과 이야기를 하면서 나 역시도 많은 것을 배우고 있다. 그 중의 하나가 바로 언어에 관한 것이다.  사실상 리더에 가까운 느낌으로 이 친구들과 일을 하고 있는데 대화를 하면서 서로 구사하는 언어의 포커스가 다른 것을 경험하고 있다 이를 육하원칙에 맞춰서 구분해보면

패널데이터 분석에서 개체와 시간을 변동하기 위한 TwoWay Fixed Effect, Interactive Fixed Effects

Data

패널데이터 분석에서 개체와 시간을 변동하기 위한 TwoWay Fixed Effect, Interactive Fixed Effects

Two-Way Fixed Effects Definition * 두 가지 고정 효과(Two-Way Fixed Effects) 모델은 패널 데이터 분석에서 개체와 시간에 대한 변동을 모두 통제하는 방법입니다. * 이는 개체와 시간의 고정 효과를 모두 포함하여, 분석 대상 변수의 변동을 설명합니다. Motivation * 이 모델은 개체와 시간에 따른 변동을 모두 통제하여 더 정확한 분석을 가능하게 하기 위해 등장했습니다.

실험시스템의 신뢰성을 테스트하기 위한 방법,A/A테스트

Data

실험시스템의 신뢰성을 테스트하기 위한 방법,A/A테스트

Motivation * A/A 테스트는 A/B 테스트의 한 형태, 두 개의 동일한 버전(A와 A)을 비교하여 실험 시스템이 제대로 작동하는지 확인하는 방법입니다. * 주로 실험 설계 및 실행 프로세스의 신뢰성을 검증하고, 데이터 수집 및 분석 과정에서의 오류를 감지하는 데 사용됩니다. * 그 외에, 통계적 유의성 검증, 시스템 업데이트 후 검증, 데이터

정규분포 분산의 사전분포로 활용되는 Inverse Chi-Square 분포

Data

정규분포 분산의 사전분포로 활용되는 Inverse Chi-Square 분포

정의 * Inverse Chi-Square 분포는 주로 베이지안 통계에서 분산을 모델링하는 데 사용되는 확률 분포입니다. * 이는 Chi-Square 분포의 역분포로, 자유도와 스케일 파라미터에 의해 정의됩니다. * Inverse Chi-Square 분포는 베이지안 분석에서 사후 분포로 자주 사용되며, 특히 정규 분포의 분산에 대한 사전 분포로 활용됩니다. 장점 1. 베이지안 분석에 적합: 분산 추정을 위한 사전 분포로서 사용되며,

Author Topic Modeling, 저자 - 주제 관계를 포함한 토픽모델링

Data

Author Topic Modeling, 저자 - 주제 관계를 포함한 토픽모델링

Author Topic Modeling * **Author Topic Model(ATM)**은 텍스트 데이터에서 주제와 저자 간의 관계를 동시에 모델링하는 기법입니다. * 이는 저자가 작성한 문서의 주제 분포를 추정하고, 각 주제에 대한 저자의 기여도를 파악하는 데 유용합니다. * 학술 문서 분석, 소셜 미디어 데이터 분석 등 다양한 텍스트 마이닝 분야에서 사용됩니다. Motivation * 단순한 토픽 모델링 기법(

좋은 리더십을 위해, 스토리텔링이 필요합니다.

Team

좋은 리더십을 위해, 스토리텔링이 필요합니다.

최근에 리더십에 대한 강의를 들은 적이 있습니다. 코칭에 관심이 있기에 평가, 피드백 등에 대해서 조금 더 공부해보고 싶었던 저에게는 꽤나 흥미있던 내용이었습니다. 엔지니어링 매니저로 최근 일해왔고,  엔지니어링 매니저로서 단기로는 회사의 문제를 해결하는 것이 중요하나 장기적으로는 사람들의 능력이 최대한 활용되어 성장할 수 있도록 기여하는 것이 중요하다고 생각했기 때문입니다. 예상한대로 강의 중간에서는

[책]식물을 보며, 우리는 항상 배울 수 있다, "선인장은 물을 좋아한다"

Book

[책]식물을 보며, 우리는 항상 배울 수 있다, "선인장은 물을 좋아한다"

언제인지 기억이 나지 않는다. 회사에서 경제지를 읽고 이야기하는 모임의 뒷풀이였다. 자신의 소개를 하다가 언틋 식물을 좋아해서 글을 쓴다고 하는 분이 있었다. 성격상 그냥 듣고 흘릴 수 없어 글을 찾아보았다. 검색을 해서 본 그 분의 글은 굉장히 인상깊었다. 식물에 이 정도 애정을 쏟을 수 있구나를 처음 느꼈다.  모든 학문은 극의에 도달하면

다항분포의 사전분포로 사용되는 다변량 확률분포, Dirichlet 분포

Data

다항분포의 사전분포로 사용되는 다변량 확률분포, Dirichlet 분포

정의 * Dirichlet 분포는 다항 분포의 사전 분포로서 사용되는 다변량 확률 분포입니다. * 각 항목이 0과 1 사이의 값을 가지며 모든 항목의 합이 1이 되는 특성을 가집니다. * 특히 베이지안 통계에서 다항 분포의 사전 분포로 자주 사용됩니다. 이는 켤레 분포(conjugate prior)의 특징을 갖습니다. * Dirichlet 분포의 켤레성은 다음과 같은 베이지안 업데이트 규칙을