Binomial과 Binary 분포는 서로 다릅니다.

Binomial과 Binary 분포는 서로 다릅니다.
Photo by Odiseo Castrejon / Unsplash

Binomial 분포

  • Binomial 분포는 고정된 횟수의 독립적인 시행에서 각 시행이 동일한 성공 확률을 가지는 이항 실험에서 성공의 횟수를 나타내는 분포입니다
  • Binomial 분포는 두 매개변수 $n$ (시행 횟수)과 $p$ (성공 확률)로 정의됩니다.
  • Binomial 분포의 확률 질량 함수(PMF)는 다음과 같습니다.
  • 여기서 $\binom{n}{k}$는 이항 계수로, n번의 시행 중 k번의 성공이 발생할 확률을 나타냅니다.

$$\binom{n}{k} p^k (1-p)^{n-k}$$

Binary 분포

  • Binary 분포(또는 Bernoulli 분포)는 단일 시행에서 성공 또는 실패의 두 가지 결과만을 가지는 분포입니다.
  • Binary 분포는 매개변수 ppp (성공 확률)로 정의됩니다.
  • Binary 분포의 확률 질량 함수(PMF)는 다음과 같습니다:

$$P(X = 1) = p, \quad P(X = 0) = 1-p$$

시각화

import numpy as np
import matplotlib.pyplot as plt

# Binomial 분포
n, p = 10, 0.5
binomial_data = np.random.binomial(n, p, 1000)

# Binary 분포
binary_data = np.random.binomial(1, p, 1000)

# Poisson 분포
lambda_poisson = n * p
poisson_data = np.random.poisson(lambda_poisson, 1000)

# 분포 시각화
plt.figure(figsize=(18, 6))

plt.subplot(1, 3, 1)
plt.hist(binomial_data, bins=np.arange(0, n+1) - 0.5, edgecolor='black', alpha=0.7)
plt.title('Binomial Distribution (n=10, p=0.5)')
plt.xlabel('Number of Successes')
plt.ylabel('Frequency')

plt.subplot(1, 3, 2)
plt.hist(binary_data, bins=np.arange(0, 2) - 0.5, edgecolor='black', alpha=0.7)
plt.title('Binary Distribution (p=0.5)')
plt.xlabel('Outcome')
plt.ylabel('Frequency')

plt.subplot(1, 3, 3)
plt.hist(poisson_data, bins=np.arange(0, np.max(poisson_data)+1) - 0.5, edgecolor='black', alpha=0.7)
plt.title('Poisson Distribution (λ=5)')
plt.xlabel('Number of Events')
plt.ylabel('Frequency')

plt.tight_layout()
plt.show()

Read more

DataFrame은 Pandera로, 모델은 Pydantic으로 데이터를 검증한다.

DataFrame은 Pandera로, 모델은 Pydantic으로 데이터를 검증한다.

Pandera: 데이터프레임 검증에 최적화된 도구 주요 장점 * Pandas와 통합: Pandas 데이터프레임에 대해 스키마 기반 검증을 수행합니다. * 유연한 검증 조건: 열 데이터 타입, 값 범위, Null 여부 등 다양한 검증 조건을 정의할 수 있습니다. * 명확한 오류 메시지: 스키마 불일치에 대한 명확한 오류 메시지를 제공합니다. 단점 * 대용량 데이터 검증에서는 속도가 느릴 수

Tobit Regression은 Censored Data에 적합한 Regression이다.

Tobit Regression은 Censored Data에 적합한 Regression이다.

Tobit Regression * Tobit 회귀(Tobit Regression)는 종속 변수가 특정 값에서 절단(Censored)된 상황에서 데이터를 분석하기 위해 사용되는 통계 기법입니다. * James Tobin이 처음 제안한 이 모델은 경제학과 사회과학 분야에서 자주 사용되며, 일반 선형 회귀로는 설명할 수 없는 상황에서 효과적으로 적용할 수 있습니다. Tobit Regression 수식 1. 관측된 종속 변수