이상치에 덜민감한 L1+L2 = Huber Loss

이상치에 덜민감한 L1+L2 = Huber Loss
Photo by Anne Nygård / Unsplash

Why Huber Loss

  • 주요 모델링 업무 중 하나로 배달시간을 예측하다보면, Long Tail Distribution 형태의 모습을 자주 보게 된다. 이 부분에 대응하기 위해 Doordash도 비슷한 고민을 하는 과정에서 Loss Function을 수정하는 모습을 보여주었는데, 그외 Alternative로서 Huber Loss에 대해서 공부하고 적용해본 기억이 있다. 이에 대해서 정리해본다

Definition

  • Huber Loss는 평균 제곱 오차(MSE)와 평균 절대 오차(MAE)의 장점을 결합한 손실 함수
  • 작은 오차에 대해서는 MSE처럼 동작하고, 큰 오차에 대해서는 MAE처럼 동작하여 이상치에 덜 민감하게 설계되었습니다.
  • Huber Loss는 다음과 같이 정의됨, 여기서 𝑎는 실제 값, 𝑓(𝑥)는 예측 값, 𝛿는 임계값

Motivation

  • 이상치에 대한 민감도 감소
    • MSE는 이상치에 매우 민감하여 큰 오차가 있을 경우 손실 값이 크게 증가
    • 반면, MAE는 이상치에 덜 민감하지만, 작은 오차에 대해서는 미분이 불연속적
    • Huber Loss는 이 두 가지 문제를 모두 해결할 수 있음
  • 안정적인 학습: 작은 오차에 대해서는 MSE처럼 미분이 연속적이고, 큰 오차에 대해서는 MAE처럼 이상치에 민감하지 않음

Pros & Cons

Pros

  • 이상치에 대한 강건성: Huber Loss는 이상치에 덜 민감
  • 연속적 미분 가능: 작은 오차에 대해서는 MSE처럼 동작하여 미분이 연속적이므로 경사 하강법을 사용한 최적화에 유리
  • 하이퍼파라미터 𝛿: 임계값 𝛿를 조정하여 모델의 민감도를 제어할 수 있음(비즈니스 로직으로 활용 가능)

Cons

  • 하이퍼파라미터 선택: 적절한 𝛿 값을 선택하는 것이 중요하며, 이는 데이터셋에 따라 다를 수 있
  • 계산 비용: Huber Loss는 MAE보다 계산 비용이 더 많이 소요

Alternative

  • 평균 제곱 오차(MSE): 이상치에 매우 민감하지만, 작은 오차에 대해서는 좋은 성능을 보입니다.
  • 평균 절대 오차(MAE): 이상치에 덜 민감하지만, 작은 오차에 대해서는 미분이 불연속적
    • 절대값 함수의 미분은 𝑥=0에서 정의되지 않기 때문에, MAE의 경우 실제 값과 예측 값이 같을 때(즉, 오차가 0일 때) 미분이 불연속적임
      • 불연속적이다 → 함수의 특정 점에서 좌측 미분 값과 우측 미분 값이 서로 다르거나, 특정 점에서 미분 값이 정의되지 않는 경우
  • Log-Cosh Loss: Huber Loss와 비슷하지만, 미분이 항상 연속적임 $$ L(y, \hat{y}) = \sum_{i} \log(\cosh(\hat{y}_i - y_i))$$$$cosh(x) = \frac{e^x + e^{-x}}{2}$$

Sample

import torch  
import torch.nn as nn  
import torch.optim as optim  
from sklearn.datasets import make_regression  
from sklearn.model_selection import train_test_split  
import matplotlib.pyplot as plt  
  
# 데이터 생성  
X, y = make_regression(n_samples=1000, n_features=1, noise=0.1)  
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)  
  
# PyTorch 텐서로 변환  
X_train = torch.FloatTensor(X_train)  
X_test = torch.FloatTensor(X_test)  
y_train = torch.FloatTensor(y_train)  
y_test = torch.FloatTensor(y_test)  
  
# 모델 정의  
class SimpleModel(nn.Module):  
    def __init__(self):  
        super(SimpleModel, self).__init__()  
        self.fc1 = nn.Linear(1, 64)  
        self.fc2 = nn.Linear(64, 64)  
        self.fc3 = nn.Linear(64, 1)  
  
    def forward(self, x):  
        x = torch.relu(self.fc1(x))  
        x = torch.relu(self.fc2(x))  
        x = self.fc3(x)  
        return x  
  
model = SimpleModel()  
  
# Huber Loss와 옵티마이저 정의  
delta = 1.0  # Huber Loss의 임계값  
criterion = nn.SmoothL1Loss(beta=delta)  
optimizer = optim.Adam(model.parameters(), lr=0.01)  
  
# 모델 학습  
train_losses = []  
for epoch in range(100):  
    model.train()  
    optimizer.zero_grad()  
    outputs = model(X_train)  
    loss = criterion(outputs.squeeze(), y_train)  
    loss.backward()  
    optimizer.step()  
    train_losses.append(loss.item())  
  
# 학습 곡선 시각화  
plt.plot(train_losses, label='Train Loss')  
plt.legend()  
plt.title('Huber Loss Training Curve')  
plt.xlabel('Epochs')  
plt.ylabel('Loss')  
plt.show()  
  
# 모델 평가  
model.eval()  
with torch.no_grad():  
    outputs = model(X_test)

Read more

다중공선성은 잘못된 인과추론 결과를 만들어낼 수 있습니다.

다중공선성은 잘못된 인과추론 결과를 만들어낼 수 있습니다.

다중공선성(Multi Collinearity) * **Multi-Collinearity(다중공선성)**는 독립 변수들 간의 강한 상관관계가 존재할 때 발생합니다. 즉, 한 독립 변수가 다른 독립 변수에 의해 설명될 수 있을 정도로 상관관계가 높은 상황을 의미합니다. * 이 문제는 주로 회귀 분석에서 나타나며, 변수들 간의 관계를 해석하는 데 있어 큰 장애물이 될 수 있습니다. * 일반적인 회귀식을 $Y=

Bayesian P-Value는 불확실성을 감안하여 모델의 적합도를 평가합니다.

Bayesian P-Value는 불확실성을 감안하여 모델의 적합도를 평가합니다.

Bayesian P- Value * Bayesian P-Value는 **모델의 적합도(goodness-of-fit)**를 평가하는 데 사용됩니다. * 사후 분포(posterior distribution)를 이용하여 실제 데이터와 모델이 생성한 예상 데이터를 비교함으로써, 관측된 데이터가 모델에 의해 얼마나 잘 설명되는지를 평가합니다. * 빈도주의 p-값은 "관찰된 데이터보다 극단적인 데이터가 나올 확률"을 계산하지만, Bayesian P-Value는 "모델이 실제

Non-Identifiability는 Model Parameter를 고유하게 식별할 수 없는 현상입니다.

Non-Identifiability는 Model Parameter를 고유하게 식별할 수 없는 현상입니다.

Non Identifiability * Non-Identifiability는 주어진 데이터와 모델에 대해 특정 파라미터를 고유하게 식별할 수 없는 상황을 의미합니다. 즉, 여러 파라미터 값들이 동일한 데이터를 생성할 수 있으며, 이로 인해 특정 파라미터 값을 확정적으로 추정하기 어렵게 됩니다. * 베이지안 추론에서 Non-Identifiability는 사후 분포가 특정 파라미터 값에 대해 명확하게 수렴하지 않고, 여러 값들에 대해 비슷한 확률을

Rootgram은 큰 분산을 갖거나 비정규 형태의 데이터를 위한 히스토그램입니다.

Rootgram은 큰 분산을 갖거나 비정규 형태의 데이터를 위한 히스토그램입니다.

Rootgram * 히스토그램의 변형으로 데이터가 비정규적이거나 큰 분산을 가지는 경우, 정확한 분포를 파악하기 위해 사용됩니다. * 일반적으로 히스토그램은 데이터의 빈도를 직접적으로 나타내기 때문에, 큰 값이 빈번하게 발생하는 경우 상대적으로 작은 값을 잘 드러내지 못하는 경향이 있습니다. 반면, Rootgram은 빈도를 제곱근 형태로 변환하여, 데이터 분포의 차이를 더 잘 시각화할 수 있도록 돕습니다 * 여기서