Non-Identifiability는 Model Parameter를 고유하게 식별할 수 없는 현상입니다.

Non-Identifiability는 Model Parameter를 고유하게 식별할 수 없는 현상입니다.
Photo by Diane Picchiottino / Unsplash

Non Identifiability

  • Non-Identifiability는 주어진 데이터와 모델에 대해 특정 파라미터를 고유하게 식별할 수 없는 상황을 의미합니다. 즉, 여러 파라미터 값들이 동일한 데이터를 생성할 수 있으며, 이로 인해 특정 파라미터 값을 확정적으로 추정하기 어렵게 됩니다.
  • 베이지안 추론에서 Non-Identifiability는 사후 분포가 특정 파라미터 값에 대해 명확하게 수렴하지 않고, 여러 값들에 대해 비슷한 확률을 할당하게 되는 경우에 발생합니다. 이는 모델의 복잡성이나 데이터의 부족으로 인해 생길 수 있습니다.

발생원인

  1. 모델의 복잡성: 너무 많은 파라미터를 포함한 모델은 파라미터 간의 상호작용이 복잡해져, 파라미터 간 구분이 어려워질 수 있습니다. 특히 상호 상관관계가 높은 파라미터가 있을 경우 Non-Identifiability가 자주 발생합니다
  2. 데이터의 부족: 충분한 데이터를 확보하지 못한 경우, 데이터만으로는 특정 파라미터를 고유하게 식별하기 어려울 수 있습니다. 데이터가 부족할수록 사후 분포가 불확실해지며, 여러 파라미터 값들이 비슷한 확률을 가질 수 있습니다.
  3. 잘못된 사전 분포: 비현실적인 사전 분포를 사용하거나, 사전 분포가 너무 넓게 설정된 경우 Non-Identifiability 문제가 발생할 수 있습니다. 이 경우, 데이터에 기반한 사후 분포가 명확히 특정 파라미터 값을 제시하지 못합니다.

왜 문제가 되는가?

  1. 모델 불확실성 증가: 파라미터 값이 고유하게 식별되지 않으면, 사후 분포는 여러 파라미터 값에 대해 높은 확률을 할당하게 되어 모델의 불확실성이 증가합니다. 이는 모델 예측의 신뢰도를 떨어뜨리게 됩니다.
  2. 해석의 어려움: 파라미터 간의 상호작용이 복잡해지면, 모델 결과를 해석하는 데 어려움이 발생할 수 있습니다. 파라미터들이 서로 영향을 주고받는 경우, 각 파라미터가 실제로 어떤 역할을 하는지 명확히 알기 어렵습니다.
  3. 추론의 비효율성: Non-Identifiability 문제는 베이지안 추론의 수렴을 더디게 만들고, 계산 비용을 증가시킬 수 있습니다. 파라미터 공간에서 확률이 균등하게 분포된 경우, MCMC(Markov Chain Monte Carlo) 알고리즘은 수렴하기 어려워질 수 있습니다.

대안

  1. 모델 단순화: 모델의 복잡성을 줄이는 것이 첫 번째 해결책입니다. 파라미터 수를 줄이거나, 상관관계가 높은 파라미터들을 통합하여 모델을 간소화하면 Non-Identifiability 문제를 완화할 수 있습니다.
  2. 추가 데이터 수집: 데이터가 부족한 경우, 더 많은 데이터를 수집함으로써 파라미터를 고유하게 식별할 수 있습니다. 데이터가 많아질수록 파라미터 간의 구분이 명확해지며, 사후 분포가 특정 파라미터 값에 집중될 가능성이 높아집니다.
  3. 사전 정보 강화: 적절한 사전 분포를 설정하는 것도 중요한 해결책입니다. 사전 지식이나 외부 정보를 활용하여 더 구체적인 사전 분포를 설정하면, Non-Identifiability 문제를 줄일 수 있습니다.
  4. 식별 가능한 파라미터 변환: 모델에서 식별이 어려운 파라미터를 식별 가능하게 변환하는 것도 한 가지 방법입니다. 예를 들어, 로그 변환이나 비율로 변환하면 파라미터 간의 구분이 명확해질 수 있습니다.

코드

  • 기울기와 절편 간 상관관계가 존재하면, 사후 분포에서 기울기가 커질수록 절편이 작아지는 등의 관계가 보일 수 있습니다. 이는 파라미터가 서로를 보정하는 형태로 나타나므로, Non-Identifiability 문제가 발생하는 것입니다.
  • pm.plot_posterior()에서 볼 수 있듯이 기울기와 절편이 특정한 값으로 집중되지 않고, 여러 값에 대해 비슷한 확률을 가진다면 Non-Identifiability가 발생한 것입니다. 이는 파라미터의 고유한 값을 결정하기 어렵다는 의미입니다.
import numpy as np  
import pymc as pm  
import matplotlib.pyplot as plt  
  
# 데이터 생성 (노이즈가 있는 선형 모델)  
np.random.seed(42)  
n = 100  
x = np.linspace(0, 10, n)  
true_slope = 2  
true_intercept = 1  
y = true_slope * x + true_intercept + np.random.normal(0, 1, n)  
  
# 베이지안 모델 정의  
with pm.Model() as model:  
    slope = pm.Normal('slope', mu=0, sigma=10)  
    intercept = pm.Normal('intercept', mu=0, sigma=10)  
    sigma = pm.HalfNormal('sigma', sigma=1)  
  
    # 선형 모델  
    mu = slope * x + intercept  
      
    # 관측 데이터  
    y_obs = pm.Normal('y_obs', mu=mu, sigma=sigma, observed=y)  
      
    # MCMC 샘플링  
    trace = pm.sample(1000, return_inferencedata=True)  
  
# 사후 분포 시각화  
pm.plot_posterior(trace, var_names=['slope', 'intercept'])  
plt.show()

  • Trace Plot: MCMC(Markov Chain Monte Carlo) 추정에서 Trace Plot을 보면, 각 파라미터의 샘플 값이 얼마나 수렴하고 있는지 시각적으로 확인할 수 있습니다. 만약 Non-Identifiability가 발생하면, 특정 파라미터 값이 명확하게 수렴하지 않고 다양한 값에 걸쳐 변동할 수 있습니다.
    • Trace Plot이 안정적으로 수렴하지 않으면 Non-Identifiability 가능성이 있습니다.
  • 정량적 기준: **Gelman-Rubin 통계량 (R-hat)**을 사용하여, 파라미터의 샘플링이 잘 수렴했는지 확인할 수 있습니다. R-hat 값이 1에 가까울수록 수렴이 잘 된 것이며, 값이 크면 수렴이 불완전하고 Non-Identifiability 문제가 있을 수 있습니다.
    • R-hat 값이 1에 가까우면 수렴이 잘 된 것이고, 그렇지 않으면 Non-Identifiability의 가능성을 고려할 수 있습니다.
# Trace plot  
pm.plot_trace(trace)  
plt.show()  
  
# R-hat 통계량 계산  
print(pm.rhat(trace))

  • 파라미터들이 서로 상호작용하여 상관관계가 매우 높으면 Non-Identifiability가 발생할 가능성이 큽니다. 예를 들어, 기울기(slope)와 절편(intercept) 같은 파라미터는 서로 보완하는 관계에 있을 때 식별이 어렵습니다.
  • 파라미터 간 상관관계를 측정하여 Non-Identifiability의 가능성을 확인할 수 있습니다. 상관계수가 1에 가까울수록 두 파라미터가 매우 밀접하게 연관되어 있으며, 독립적으로 식별하기 어렵다는 신호입니다.
    • 정량적 기준: 상관계수가 0.9 이상일 경우 Non-Identifiability가 발생할 가능성이 높습니다.
  • 쌍대 시각화는 여러 파라미터 간의 상관관계를 시각적으로 파악하는 데 유용합니다. 두 파라미터가 함께 움직이면서 동일한 형태의 데이터를 생성할 수 있는 경우, Non-Identifiability가 발생할 가능성이 큽니다.
import seaborn as sns  
import pandas as pd  
  
# 사후 분포에서 파라미터 값을 추출하는 방법  
posterior = trace.posterior  
  
# slope와 intercept 추출  
slope_values = posterior['slope'].values.flatten()  
intercept_values = posterior['intercept'].values.flatten()  
  
# 파라미터 값을 DataFrame으로 변환  
params = pd.DataFrame({'slope': slope_values, 'intercept': intercept_values})  
  
# 쌍대 시각화 (Pair Plot)sns.pairplot(params)  
plt.show()  
  
# 상관계수 계산  
correlation = params.corr()  
print(correlation)

Read more

다중공선성은 잘못된 인과추론 결과를 만들어낼 수 있습니다.

다중공선성은 잘못된 인과추론 결과를 만들어낼 수 있습니다.

다중공선성(Multi Collinearity) * **Multi-Collinearity(다중공선성)**는 독립 변수들 간의 강한 상관관계가 존재할 때 발생합니다. 즉, 한 독립 변수가 다른 독립 변수에 의해 설명될 수 있을 정도로 상관관계가 높은 상황을 의미합니다. * 이 문제는 주로 회귀 분석에서 나타나며, 변수들 간의 관계를 해석하는 데 있어 큰 장애물이 될 수 있습니다. * 일반적인 회귀식을 $Y=

Bayesian P-Value는 불확실성을 감안하여 모델의 적합도를 평가합니다.

Bayesian P-Value는 불확실성을 감안하여 모델의 적합도를 평가합니다.

Bayesian P- Value * Bayesian P-Value는 **모델의 적합도(goodness-of-fit)**를 평가하는 데 사용됩니다. * 사후 분포(posterior distribution)를 이용하여 실제 데이터와 모델이 생성한 예상 데이터를 비교함으로써, 관측된 데이터가 모델에 의해 얼마나 잘 설명되는지를 평가합니다. * 빈도주의 p-값은 "관찰된 데이터보다 극단적인 데이터가 나올 확률"을 계산하지만, Bayesian P-Value는 "모델이 실제

Rootgram은 큰 분산을 갖거나 비정규 형태의 데이터를 위한 히스토그램입니다.

Rootgram은 큰 분산을 갖거나 비정규 형태의 데이터를 위한 히스토그램입니다.

Rootgram * 히스토그램의 변형으로 데이터가 비정규적이거나 큰 분산을 가지는 경우, 정확한 분포를 파악하기 위해 사용됩니다. * 일반적으로 히스토그램은 데이터의 빈도를 직접적으로 나타내기 때문에, 큰 값이 빈번하게 발생하는 경우 상대적으로 작은 값을 잘 드러내지 못하는 경향이 있습니다. 반면, Rootgram은 빈도를 제곱근 형태로 변환하여, 데이터 분포의 차이를 더 잘 시각화할 수 있도록 돕습니다 * 여기서

ML 코드 작성시 유의사항

ML 코드 작성시 유의사항

유의사항 * 코드의 작성방식: 다른사람이 코드를 읽고 이해할 수 있는가? * 코드의 성능: 의도치 않은 부작용이 발생하는가? * 코드의 복잡성: 유스케이스에 비해 설계가 과도하고 부족한가 * 개선의 용이성: ML코드가 지속적으로 리팩토링 되는가? 코드 작성방식에 따른 개발자(+데이터과학자)의 유형 분류 출처 * 머신러닝 엔지니어링 인 액션