Data

앞으로는 신뢰가 가장 큰 자산이 될 것입니다.

앞으로는 신뢰가 가장 큰 자산이 될 것입니다.

저녁에 샤워를 하고 있을 때였습니다.  세수를 위해 폼클렌저를 집는데, "나노버블"이라는 단어가 갑자기 눈에 띄었습니다. 그 때 머리속에 이런 질문이 떠올랐습니다 사람들이 나노버블의 의미를 이해하고 있을까? 이해한다면 얼마나 이해하고 있고 그 이해도는 얼마나 정확할까? 보통 우리가 문제를 해결할 때를 생각해보면 대부분의 문제는 초기 솔루션이 대부분의 문제는 해결합니다. 해결의 진척도를 1~
Bongho Lee
Gaussian Process은 무한공간에서 사전정보를 결합하기 위해 사용된다.

Gaussian Process은 무한공간에서 사전정보를 결합하기 위해 사용된다.

Definition * 연속적인 함수 공간에서 정의된 확률 과정으로, 주어진 데이터로부터 함수의 분포를 추정하는 강력한 비모수적 방법입니다. * Gaussian Process는 주로 회귀 분석, 분류, 최적화 문제에서 사용되며, 특히 불확실성을 정량화하는 데 유용합니다. * Bayesian Analytics에서 Infinite Space에 대해 Prior를 적용하기 위한 방안으로 활용됩니다. Pros & Cons Pros 1. 비모수적 접근: 모델의 구조를 사전 정의하지 않고
Bongho Lee
두 포인트간의 유사도를 찾는데 사용되는 Kernel Function

두 포인트간의 유사도를 찾는데 사용되는 Kernel Function

Definition * **커널 함수(Kernel Function)**는 기계 학습과 통계에서 사용되는 함수로, 두 데이터 포인트 간의 유사도를 측정합니다 * . 주로 비선형 데이터를 고차원 공간으로 변환하여 선형 분리가 가능하게 하는 데 사용됩니다. * 커널 함수는 Support Vector Machines (SVM), Gaussian Process, 커널 PCA와 같은 다양한 알고리즘에서 핵심적인 역할을 합니다. Motivation * 기계 학습에서 많은 데이터는
Bongho Lee
Double ML과 DR Learner는 ML 기반 인과추론 방법론이다.

Double ML과 DR Learner는 ML 기반 인과추론 방법론이다.

Double ML: Residual on Residual Regression + Cross-Fitting * 통제 변수를 조정하여 잔차 회귀(Residual on Residual Regression)와 교차 적합(Cross-Fitting)을 결합하여 사용합니다. * 장점 * 편향 감소: 잔차 회귀를 통해 통제 변수의 영향을 제거하여 인과 효과 추정의 편향을 줄입니다. * 일관성 보장: 교차 적합을 통해 과적합을 방지하고 추정의 일관성을 보장합니다. * 유연성: 다양한
Bongho Lee
ATE 대비 CATE는 특정 하위그룹의 인과추론에 집중한다.

ATE 대비 CATE는 특정 하위그룹의 인과추론에 집중한다.

Average Treatment Effect (ATE) * $ATE=E[Y(1)]−E[Y(0)]$ * 전체 인구에서 처치의 평균 효과를 측정하는 지표입니다. * ATE는 처치를 받은 경우와 받지 않은 경우의 결과 차이를 평균적으로 나타냅니다. * 장점 1. 단순하고 직관적: 전체 인구에 대한 처치의 평균 효과를 쉽게 이해할 수 있습니다. 2. 정책 결정에 유용: 전체 인구에 대한
Bongho Lee
Binomial과 Binary 분포는 서로 다릅니다.

Binomial과 Binary 분포는 서로 다릅니다.

Binomial 분포 * Binomial 분포는 고정된 횟수의 독립적인 시행에서 각 시행이 동일한 성공 확률을 가지는 이항 실험에서 성공의 횟수를 나타내는 분포입니다 * Binomial 분포는 두 매개변수 $n$ (시행 횟수)과 $p$ (성공 확률)로 정의됩니다. * Binomial 분포의 확률 질량 함수(PMF)는 다음과 같습니다. * 여기서 $\binom{n}{k}$는 이항 계수로, n번의
Bongho Lee