Data

Rootgram은 큰 분산을 갖거나 비정규 형태의 데이터를 위한 히스토그램입니다.

Data

Rootgram은 큰 분산을 갖거나 비정규 형태의 데이터를 위한 히스토그램입니다.

Rootgram * 히스토그램의 변형으로 데이터가 비정규적이거나 큰 분산을 가지는 경우, 정확한 분포를 파악하기 위해 사용됩니다. * 일반적으로 히스토그램은 데이터의 빈도를 직접적으로 나타내기 때문에, 큰 값이 빈번하게 발생하는 경우 상대적으로 작은 값을 잘 드러내지 못하는 경향이 있습니다. 반면, Rootgram은 빈도를 제곱근 형태로 변환하여, 데이터 분포의 차이를 더 잘 시각화할 수 있도록 돕습니다 * 여기서

By Bongho, Lee
ML 코드 작성시 유의사항

Data

ML 코드 작성시 유의사항

유의사항 * 코드의 작성방식: 다른사람이 코드를 읽고 이해할 수 있는가? * 코드의 성능: 의도치 않은 부작용이 발생하는가? * 코드의 복잡성: 유스케이스에 비해 설계가 과도하고 부족한가 * 개선의 용이성: ML코드가 지속적으로 리팩토링 되는가? 코드 작성방식에 따른 개발자(+데이터과학자)의 유형 분류 출처 * 머신러닝 엔지니어링 인 액션

By Bongho, Lee
ELPD는 모델이 새로운 데이터를 얼마나 잘 예측하는지를 보여주는 지표입니다.

Data

ELPD는 모델이 새로운 데이터를 얼마나 잘 예측하는지를 보여주는 지표입니다.

기본 개념 * ELPD(Expected Log Predictive Density)는 모델이 새로운 데이터를 얼마나 잘 예측하는지를 나타내는 지표로, 주어진 데이터 포인트에 대해 모델이 예측한 확률의 로그 값(로그확률)을 합산한 것입니다. $$\text{ELPD} = \sum_{i=1}^{n} \log p(y_i \mid \text{data})$$ * $n$: 데이터 포인트의 수 * $y_i$ : 실제 관측된

By Bongho, Lee
잭나이프 샘플링은 표본의 변동성 추정 방법중 하나입니다.

Data

잭나이프 샘플링은 표본의 변동성 추정 방법중 하나입니다.

잭나이프 샘플링이란? * 잭나이프 샘플링은 표본 데이터에서 하나의 관측치를 제거한 여러 하위 샘플을 만들어, 이들 샘플에 대해 통계량을 계산한 후 그 결과를 바탕으로 전체 표본의 변동성을 추정하는 방법입니다. 잭 * 나이프는 주로 표본의 분산을 추정하거나 통계량의 편향을 줄이기 위해 사용됩니다. 예시 * 주어진 표본이 [x1, x2, x3, x4]라면, 잭나이프 샘플링은 다음과 같은

By Bongho, Lee
LangChain 활용해서 내 글스타일에 맞춰 글쓰는 LLM 구축하기 Ver0.1

Data

LangChain 활용해서 내 글스타일에 맞춰 글쓰는 LLM 구축하기 Ver0.1

목적 및 배경 * 매일 글을 쓰는 입장에서 보다 많은 글을 작성하기 위해서 1차로 글의 구조만 잡아주고, 나머지 내용은 LLM으로 채운 후 퇴고를 하는 형태를 시도해보려고 한다. Code 01. Obsidian에 있는 내 글을 모아서 전처리하기 import os import re import time import pickle def preProcessNote(file, path_dir): try: file_path

By Bongho, Lee
Model Drift Check Library, Evidently AI

Data

Model Drift Check Library, Evidently AI

Evidently AI Evidently AI는 머신러닝 모델의 성능과 데이터 분포의 변화를 시각적으로 분석하고 모니터링할 수 있는 Python 라이브러리입니다. 이 라이브러리는 모델의 드리프트를 탐지하고, 이를 기반으로 모델의 성능 저하를 사전에 예방하는 데 유용합니다. 주요 기능 * 데이터 드리프트 감지: 현재 데이터와 과거 데이터 간의 분포 차이를 분석합니다. * 대규모 데이터 처리: 대규모 데이터에 대해

By Bongho, Lee
디리클레 프로세스는 군집갯수를 구하기 위해 사용할 수 있습니다.

Data

디리클레 프로세스는 군집갯수를 구하기 위해 사용할 수 있습니다.

Dirichlet Process (디리클레 과정) * **Dirichlet Process (DP)**는 무한 차원의 확률분포로, 클러스터링 문제에서 군집의 개수가 미리 정해지지 않은 경우에 유용하게 사용됩니다. * DP는 기존의 Dirichlet Distribution를 확장한 것으로, 데이터 포인트들이 서로 다른 군집에 속할 확률을 정의합니다. * Dirichlet Distribution은 확률벡터(즉, 모든 원소가 0과 1 사이의 값을 가지며, 전체 합이 1이 되는

By Bongho, Lee
단일파일압축 기반 고성능 압축 알고리즘, zstd

Data

단일파일압축 기반 고성능 압축 알고리즘, zstd

zstd (Zstandard) * 페이스북에서 개발한 빠르고 효율적인 압축 알고리즘입니다. * 높은 압축률과 빠른 압축 및 해제 속도를 제공합니다. Motivation * zstd는 높은 압축률과 빠른 속도를 모두 제공하기 위해 개발되었습니다. 많은 데이터 처리와 전송이 필요한 환경에서 효율성을 높이기 위함입니다. * 스트리밍 지원: zstandard는 스트리밍 압축 및 해제를 지원합니다. 이는 실시간 데이터 처리나 네트워크 전송 시

By Bongho, Lee
HyperParameter Tuning 패키지, HyperOpt

Data

HyperParameter Tuning 패키지, HyperOpt

Motivation * 기존의 하이퍼파라미터 튜닝 방식은 주로 수동적이고 시간이 많이 소요되었습니다. * 그리드 서치(Grid Search)나 랜덤 서치(Random Search)는 단순하지만, 고차원의 하이퍼파라미터 공간에서는 비효율적입니다. * HyperOpt는 베이지안 최적화(Bayesian Optimization)와 같은 고급 기법을 통해 하이퍼파라미터 최적화를 보다 효율적으로 수행할 수 있게 합니다. Pros & Cons Pros * 효율적인 탐색: HyperOpt는

By Bongho, Lee
Gibbs 샘플링과 MH 샘플링은 MCMC의 대표적 방법 중 하나입니다.

Data

Gibbs 샘플링과 MH 샘플링은 MCMC의 대표적 방법 중 하나입니다.

Motivation * 복잡한 다차원 확률 분포에서 직접 샘플링하는 것은 어려운 경우가 많습니다. 이러한 문제를 해결하기 위해 MCMC 방법이 등장했습니다. * * 고차원의 문제: 고차원 공간에서는 모든 가능한 값들을 커버하기 위해 필요한 샘플 수가 기하급수적으로 증가합니다. 이로 인해 효율적인 샘플링이 매우 어렵습니다. * 비선형성: 다차원 확률 분포는 종종 비선형성을 띄며, 특정 변수들 간의 복잡한 상호작용이

By Bongho, Lee
앞으로는 신뢰가 가장 큰 자산이 될 것입니다.

Data

앞으로는 신뢰가 가장 큰 자산이 될 것입니다.

저녁에 샤워를 하고 있을 때였습니다.  세수를 위해 폼클렌저를 집는데, "나노버블"이라는 단어가 갑자기 눈에 띄었습니다. 그 때 머리속에 이런 질문이 떠올랐습니다 사람들이 나노버블의 의미를 이해하고 있을까? 이해한다면 얼마나 이해하고 있고 그 이해도는 얼마나 정확할까? 보통 우리가 문제를 해결할 때를 생각해보면 대부분의 문제는 초기 솔루션이 대부분의 문제는 해결합니다. 해결의

By Bongho, Lee
Gaussian Process은 무한공간에서 사전정보를 결합하기 위해 사용된다.

Data

Gaussian Process은 무한공간에서 사전정보를 결합하기 위해 사용된다.

Definition * 연속적인 함수 공간에서 정의된 확률 과정으로, 주어진 데이터로부터 함수의 분포를 추정하는 강력한 비모수적 방법입니다. * Gaussian Process는 주로 회귀 분석, 분류, 최적화 문제에서 사용되며, 특히 불확실성을 정량화하는 데 유용합니다. * Bayesian Analytics에서 Infinite Space에 대해 Prior를 적용하기 위한 방안으로 활용됩니다. Pros & Cons Pros 1. 비모수적 접근: 모델의 구조를 사전 정의하지

By Bongho, Lee
두 포인트간의 유사도를 찾는데 사용되는 Kernel Function

Data

두 포인트간의 유사도를 찾는데 사용되는 Kernel Function

Definition * **커널 함수(Kernel Function)**는 기계 학습과 통계에서 사용되는 함수로, 두 데이터 포인트 간의 유사도를 측정합니다 * . 주로 비선형 데이터를 고차원 공간으로 변환하여 선형 분리가 가능하게 하는 데 사용됩니다. * 커널 함수는 Support Vector Machines (SVM), Gaussian Process, 커널 PCA와 같은 다양한 알고리즘에서 핵심적인 역할을 합니다. Motivation * 기계 학습에서 많은 데이터는

By Bongho, Lee
Double ML과 DR Learner는 ML 기반 인과추론 방법론이다.

Data

Double ML과 DR Learner는 ML 기반 인과추론 방법론이다.

Double ML: Residual on Residual Regression + Cross-Fitting * 통제 변수를 조정하여 잔차 회귀(Residual on Residual Regression)와 교차 적합(Cross-Fitting)을 결합하여 사용합니다. * 장점 * 편향 감소: 잔차 회귀를 통해 통제 변수의 영향을 제거하여 인과 효과 추정의 편향을 줄입니다. * 일관성 보장: 교차 적합을 통해 과적합을 방지하고 추정의 일관성을 보장합니다. * 유연성: 다양한

By Bongho, Lee