디리클레 프로세스는 군집갯수를 구하기 위해 사용할 수 있습니다.

디리클레 프로세스는 군집갯수를 구하기 위해 사용할 수 있습니다.
Photo by Divyanshi Verma / Unsplash

Dirichlet Process (디리클레 과정)

  • **Dirichlet Process (DP)**는 무한 차원의 확률분포로, 클러스터링 문제에서 군집의 개수가 미리 정해지지 않은 경우에 유용하게 사용됩니다.
  • DP는 기존의 Dirichlet Distribution를 확장한 것으로, 데이터 포인트들이 서로 다른 군집에 속할 확률을 정의합니다.
    • Dirichlet Distribution은 확률벡터(즉, 모든 원소가 0과 1 사이의 값을 가지며, 전체 합이 1이 되는 벡터)를 생성하는 다변량 확률 분포입니다.
      • 이 분포는 다항분포(Multinomial Distribution)의 사전 분포(Prior Distribution)로 자주 사용됩니다. $$\text{Dir}(\mathbf{x} | \alpha) = \frac{1}{B(\alpha)} \prod_{i=1}^K x_i^{\alpha_i - 1}$$

        • $\mathbf{x} = (x_1, x_2, \dots, x_K)$는 확률벡터로, $x_i \geq 0$이고, $\sum_{i=1}^K x_i = 1$입니다.
        • $\alpha = (\alpha_1, \alpha_2, \dots, \alpha_K)$는 양수 파라미터 벡터로, 이 값을 통해 각 차원의 분포 모양이 결정됩니다.
        • $B(α)$는 정규화 상수로, 각 $\alpha_i$ 값에 따라 Dirichlet 분포의 확률 밀도를 정상화하는 역할을 합니다.
  • Dirichlet Process는 다음과 같이 정의됩니다$$G∼DP(α,H)$$
    • $\alpha$는 농도 매개변수로, 새로운 군집이 생성될 빈도를 조절합니다.
    • $H$는 기본 분포로, DP에서 샘플링된 분포들이 따르게 될 기준이 되는 분포입니다.
  • Dirichlet Process는 다음과 같이 작동합니다:
    • 첫 번째 데이터 포인트는 기본 분포 $H$에서 샘플링된 값을 따릅니다.
    • 이후 데이터 포인트는 기존 군집에 속할 확률과 새로운 군집을 형성할 확률을 가지며, 이 확률은 농도 매개변수 $\alpha$에 따라 조절됩니다.
  • Dirichlet Process는 확률 과정의 한 유형으로, 특히 비매개변수 베이지안 통계에서 사용됩니다. 이 과정은 데이터를 군집화할 때 각 데이터가 특정 군집에 속할 확률을 모델링하는 데 사용됩니다.
    • 확률 과정(Probabilistic Process 또는 Stochastic Process)은 시간이나 공간과 같은 어떤 지표에 따라 변하는 확률적 현상을 수학적으로 모델링하는 것을 말합니다. 쉽게 말해, 시간의 흐름에 따라 확률적으로 변화하는 무작위 변수를 다루는 과정입니다.
      • 확률 과정은 무작위 변수의 연속적인 집합이라고 할 수 있습니다. 이 무작위 변수는 시간이나 공간에 따라 변하며, 각 시간 점에서 무작위적인 값을 가집니다.
        • 예를 들어, 주가의 변화, 날씨의 변화, 라디오 신호의 강도 변화 등이 확률 과정의 예입니다.
      • 확률 과정은 일반적으로 시간 ttt에 따라 정의됩니다. 즉, 어떤 무작위 현상이 시간이 지남에 따라 어떻게 변하는지를 설명합니다.
        • 예를 들어,$X(t)$가 시간 $t$에서의 주가를 나타낸다고 하면, $X(t)$는 특정 시간 $t$에서 주가가 가질 수 있는 여러 가지 가능성을 표현합니다.
  • 장점
    • 유연성: 군집의 개수를 미리 알 필요 없이, 데이터를 기반으로 군집이 동적으로 결정됩니다.
    • 무한한 가능성: 이론적으로 무한한 개수의 군집을 허용하므로, 데이터가 증가해도 새로운 군집을 생성할 수 있습니다.
    • 베이지안 접근: 베이지안 통계학의 기초 위에 세워져 있어, 사전 확률 분포와 사후 확률 분포의 개념을 사용합니다.
  • 단점
    • 복잡성: 개념적으로 이해하기 어렵고, 구현이 복잡할 수 있습니다.
    • 계산 비용: 데이터가 커질수록 계산 비용이 크게 증가할 수 있습니다.
    • 파라미터 민감도: 하이퍼파라미터에 따라 결과가 크게 달라질 수 있습니다.
  • 대안
    • Gaussian Mixture Model (GMM): 고정된 군집 개수를 사용하지만, 가우시안 분포를 기반으로 군집화하는 방법입니다.
    • k-means: 가장 기본적인 군집화 방법으로, 고정된 개수의 군집을 생성합니다.
    • Hierarchical Clustering: 군집의 계층적 구조를 형성하는 군집화 방법입니다.

Chinese Restaurant Process (중국집 과정)

  • **Chinese Restaurant Process (CRP)**는 Dirichlet Process의 직관적인 해석을 제공하는 비유적인 모델입니다.
  • 이 모델에서는 무한히 큰 좌석을 가진 중국집에 손님들이 들어오는 상황을 가정합니다. 새로운 손님은 이미 앉아 있는 사람들과 같은 테이블에 앉거나 새로운 테이블을 선택할 확률을 가집니다.

CRP의 규칙

  1. 기존 테이블에 앉는 확률: 이미 $k$명의 손님이 앉아 있는 테이블에 새로운 손님이 앉을 확률은 $\frac{k}{n + \alpha}$​입니다.
  2. 새로운 테이블을 선택할 확률: 새로운 테이블에 앉을 확률은 $\frac{\alpha}{n + \alpha}$입니다. 여기서 $\alpha$는 집중도(concentration parameter)로, 새로운 군집이 생성되는 빈도를 조절합니다.

CRP의 장점

  1. 직관적 이해: CRP는 DP를 직관적으로 이해하는 데 도움을 줍니다.
  2. 군집화의 자연스러운 생성: 데이터를 분석할 때 자연스럽게 군집이 형성되므로, 실제 데이터에서 유용하게 사용될 수 있습니다.

단점

  1. 비유적 모델: CRP는 비유적인 모델이므로, 실제 구현에서 다소 추상적일 수 있습니다.
  2. 매개변수 설정의 어려움: 집중도 α\alphaα의 값을 적절히 설정하는 것이 어려울 수 있습니다.

Sample

import numpy as np  
import matplotlib.pyplot as plt  
from scipy.stats import gamma  
  
def bayesian_chinese_restaurant_process(alpha_prior_shape, alpha_prior_rate, n_customers):  
    # alpha 값을 감마 분포로부터 샘플링 (사전분포 반영)  
     # 감마 분포에서 α 값을 샘플링합니다. 이 값이 CRP에서 새로운 테이블을 선택할 확률을 결정하는 데 사용됩니다  
    alpha = np.random.gamma(alpha_prior_shape, 1 / alpha_prior_rate)  
      
    tables = []  
    for i in range(n_customers):  
        if len(tables) == 0:  
            tables.append(1)  
        else:  
            probs = np.array(tables) / (i + alpha)  
            probs = np.append(probs, alpha / (i + alpha))  
            table_choice = np.random.choice(len(tables) + 1, p=probs)  
            if table_choice == len(tables):  
                tables.append(1)  
            else:  
                tables[table_choice] += 1  
    return tables, alpha  
  
#감마 분포의 파라미터로, 사전분포를 정의합니다.  
alpha_prior_shape = 2.0  # 감마 분포의 형태 매개변수 (사전분포)  
alpha_prior_rate = 1.0   # 감마 분포의 척도 매개변수 (사전분포)  
n_customers = 100  
  
# 베이지안 CRP 실행  
tables, sampled_alpha = bayesian_chinese_restaurant_process(alpha_prior_shape, alpha_prior_rate, n_customers)  
  
# 결과 시각화  
plt.bar(range(len(tables)), tables)  
plt.xlabel('Table Index')  
plt.ylabel('Number of Customers')  
plt.title(f'Bayesian Chinese Restaurant Process (Sampled alpha={sampled_alpha:.2f})')  
plt.show()

Read more

다중공선성은 잘못된 인과추론 결과를 만들어낼 수 있습니다.

다중공선성은 잘못된 인과추론 결과를 만들어낼 수 있습니다.

다중공선성(Multi Collinearity) * **Multi-Collinearity(다중공선성)**는 독립 변수들 간의 강한 상관관계가 존재할 때 발생합니다. 즉, 한 독립 변수가 다른 독립 변수에 의해 설명될 수 있을 정도로 상관관계가 높은 상황을 의미합니다. * 이 문제는 주로 회귀 분석에서 나타나며, 변수들 간의 관계를 해석하는 데 있어 큰 장애물이 될 수 있습니다. * 일반적인 회귀식을 $Y=

Bayesian P-Value는 불확실성을 감안하여 모델의 적합도를 평가합니다.

Bayesian P-Value는 불확실성을 감안하여 모델의 적합도를 평가합니다.

Bayesian P- Value * Bayesian P-Value는 **모델의 적합도(goodness-of-fit)**를 평가하는 데 사용됩니다. * 사후 분포(posterior distribution)를 이용하여 실제 데이터와 모델이 생성한 예상 데이터를 비교함으로써, 관측된 데이터가 모델에 의해 얼마나 잘 설명되는지를 평가합니다. * 빈도주의 p-값은 "관찰된 데이터보다 극단적인 데이터가 나올 확률"을 계산하지만, Bayesian P-Value는 "모델이 실제

Non-Identifiability는 Model Parameter를 고유하게 식별할 수 없는 현상입니다.

Non-Identifiability는 Model Parameter를 고유하게 식별할 수 없는 현상입니다.

Non Identifiability * Non-Identifiability는 주어진 데이터와 모델에 대해 특정 파라미터를 고유하게 식별할 수 없는 상황을 의미합니다. 즉, 여러 파라미터 값들이 동일한 데이터를 생성할 수 있으며, 이로 인해 특정 파라미터 값을 확정적으로 추정하기 어렵게 됩니다. * 베이지안 추론에서 Non-Identifiability는 사후 분포가 특정 파라미터 값에 대해 명확하게 수렴하지 않고, 여러 값들에 대해 비슷한 확률을

Rootgram은 큰 분산을 갖거나 비정규 형태의 데이터를 위한 히스토그램입니다.

Rootgram은 큰 분산을 갖거나 비정규 형태의 데이터를 위한 히스토그램입니다.

Rootgram * 히스토그램의 변형으로 데이터가 비정규적이거나 큰 분산을 가지는 경우, 정확한 분포를 파악하기 위해 사용됩니다. * 일반적으로 히스토그램은 데이터의 빈도를 직접적으로 나타내기 때문에, 큰 값이 빈번하게 발생하는 경우 상대적으로 작은 값을 잘 드러내지 못하는 경향이 있습니다. 반면, Rootgram은 빈도를 제곱근 형태로 변환하여, 데이터 분포의 차이를 더 잘 시각화할 수 있도록 돕습니다 * 여기서