적용한 결과를 넘어 왜 적용했는지를 고민할 때 지식의 발산이 가능해진다.

그리 많이 살지는 않지만, 그렇다고 적게 살지도 않은 것같다. 다행이라고 하면 아직 배우고, 경험할 수 있는 시간이 정말 너무나도 많이 남았다는 것이다. 그런데 한 편으로는 이러한 생각이 상당한 스트레스일 때도 있다. 너무나도 배우고 싶은 것, 알아야할 것들이 너무나도 많다는 것이다. 그리고 개인으로도, 가족의 구성원으로도, 또 자녀로서도 이렇게 배워야할 내용들은 각 분야에서 폭발적으로 증가하고 있는 것이 사실이다.

얼마전에 TimesNet이라는 Time Series Forecasting 관련 Model을 보는데, 이 모델은 Period를 IntraPeriod, InterPeriod로 나누어 2차원적으로 Period를 나눠서보고 있고, 이렇게 Period를 구분하기 위해서 Fast Fourier Transform(FFT)을 사용하고 있었다. FFT는 이전에 사용해보았지만, 문득 왜 이 시점에 이 것을 써야만 했지는 생각해본 적이 없던 터라, 찾아보기 시작하였다.

FFT를 찾다보니 자연스럽게 Discrete Fourier Transform(DFT)를 공부해야 했고, DFT를 이해하기 위해서 Fourier Transform와 Fourier Series를 공부해야 했으며, Fourier Series를 이해하기 위해서 주기함수를 알아야 했다. 나아가서 왜 Continuous도 있는데 Discrete Fourier Transform을 봐야 하는지도 알아보게 되었다. 자연스럽게 학부 시절에 왜 이산수학을 공부했는지도 이해가 어렴풋이 되기 시작하였다.

필요한 부분만 발췌하였기 때문에 이 모든 내용을 온전히 이해한 것은 아니지만, 어느정도 이 지식에 실을 꿰어서 연결고리를 만들어낸 것이다. Period를 구분하기 위해서 FFT를 써야 한다는 것을 넘어서 커뮤터의 특성을 고려할 때 Discrete Signal에 대해서 분해하고 분석하기 위해서 FFT를 사용할 수 있다는 사실을 알게 되었다. 나아가 과거 Kaggle Competition에서 FFT를 사람들이 왜썼는지에 대해서도 자연스럽게 이해하게 되었다.

이렇게 생각하다보니 최근에 읽었던 육각형 개발자에서 보았던 다음 문구가 기억났다.

개발자이자 연사로 활동하는 제시카 커JessikaKer는 "답이 아닌 질문을 따라 하라(Copy the question, not the answer)"는 말로 답이 아닌 질문의 중요성을 표현했다.

우리는 항상 많은 정보를 접하고 살고 있다. 이들을 모두 표면만으로 바라보고 따라하려고 애쓰면 도무지 그 지식을 어떻게 적용해야 할지부터 막막해질 때가 꽤나 많은게 사실이다. 하지만 같은 사람의 관점에서 보면 은근히 발상의 시작은 우리 모두가 공통적으로 어디선가 경험해본 적이 있을 때가 꽤나 있다.(개인적인 경험을 반추해보면 그러하였다)

따라서 생각은 Outcome Based로 하되 이해를 할 때는 Input Based로 보는 것이 어찌 보면 빠른 지식의 학습을 돕고 그 지식의 알맹이를 캐치하는게 더 용이할 수 있다. 이는 학제를 넘나들기 위해서는 더욱더 필요한 재능일 수도 있다는 생각이 들었다.

FFT를 예로 들어보자.아래 그래프는 특정 데이터를 FTT로 분해하여 시각화한 것이다. 보면 Day와 Year에서 그래프가 상승한 것을 볼 수 있다. 즉, 해당 데이터의 주기는 일(Day)과 년(Year)의 주기(Period)가 있다는 의미이다. "왜 FTT를 여기에 활용했을까?"를 생각해본다면 "주기마다 특성이 다를 것이다"이다라는 공통적인 개념을 시계열 데이터에 적용한 것을 알고 있다. FTT를 그냥 기술적으로만 바라본다고 하면 시계열에 적용할 생각은 못했겠지만, 근본적인 아이디어를 인지하였기 때문에 이렇게 다른 학제로의 생각의 발산이 가능해졌다.

이는 테크니컬 리더로서 최근 일하는 나에게도 큰 인사이트를 주었다. 제럴드 와인버그는 그의 저서 "테크니컬 리더"는 다음과 같은 활동을 통해 혁신을 주도하고 조직의 문제해결능력을 극대화해야 한다고 한다.

• 문제 이해하기
• 아이디어 흐름 관리하기
• 품질 유지하기

이 것을 어떻게 해야 할지, 사실 좀 고민이 되었는데, 기존에 보았던 아래 질문을 통해서 상상력을 최대한 자극하되, 아이디어 흐름을 관리할 때는 "레퍼런스의 결과물보다 왜 이런 결과물이 필요했는지"를 시작으로 지식의 알맹이를 가지고 발산할 수 있도록 도와줄 필요가 있겠다는 결론에 이르렀다.

"만약 당신에게 요술봉이 있다면 어떤 결정을 내리겠습니까?"

여기까지 적고나서 보니 메타인지가 정말 중요하다. 이렇게 지식을 1차원적으로 바라보는게 아니라 구조적으로 공간적인 관점에서 바라봐야 이렇게 지식에 대한 분해가 가능해지기 때문이다.

TimesNet이라는 모델 하나를 보다가 여기까지 왔는데, 세컨드 브레인을 고민하는 관점에서 어떻게 지식을 재생산할 것이라는 측면을 놓고 본다면 꽤나 의미있는 접근이었기에 이렇게 글을 남겨본다.

Read more

다중공선성은 잘못된 인과추론 결과를 만들어낼 수 있습니다.

다중공선성은 잘못된 인과추론 결과를 만들어낼 수 있습니다.

다중공선성(Multi Collinearity) * **Multi-Collinearity(다중공선성)**는 독립 변수들 간의 강한 상관관계가 존재할 때 발생합니다. 즉, 한 독립 변수가 다른 독립 변수에 의해 설명될 수 있을 정도로 상관관계가 높은 상황을 의미합니다. * 이 문제는 주로 회귀 분석에서 나타나며, 변수들 간의 관계를 해석하는 데 있어 큰 장애물이 될 수 있습니다. * 일반적인 회귀식을 $Y=

Bayesian P-Value는 불확실성을 감안하여 모델의 적합도를 평가합니다.

Bayesian P-Value는 불확실성을 감안하여 모델의 적합도를 평가합니다.

Bayesian P- Value * Bayesian P-Value는 **모델의 적합도(goodness-of-fit)**를 평가하는 데 사용됩니다. * 사후 분포(posterior distribution)를 이용하여 실제 데이터와 모델이 생성한 예상 데이터를 비교함으로써, 관측된 데이터가 모델에 의해 얼마나 잘 설명되는지를 평가합니다. * 빈도주의 p-값은 "관찰된 데이터보다 극단적인 데이터가 나올 확률"을 계산하지만, Bayesian P-Value는 "모델이 실제

Non-Identifiability는 Model Parameter를 고유하게 식별할 수 없는 현상입니다.

Non-Identifiability는 Model Parameter를 고유하게 식별할 수 없는 현상입니다.

Non Identifiability * Non-Identifiability는 주어진 데이터와 모델에 대해 특정 파라미터를 고유하게 식별할 수 없는 상황을 의미합니다. 즉, 여러 파라미터 값들이 동일한 데이터를 생성할 수 있으며, 이로 인해 특정 파라미터 값을 확정적으로 추정하기 어렵게 됩니다. * 베이지안 추론에서 Non-Identifiability는 사후 분포가 특정 파라미터 값에 대해 명확하게 수렴하지 않고, 여러 값들에 대해 비슷한 확률을

Rootgram은 큰 분산을 갖거나 비정규 형태의 데이터를 위한 히스토그램입니다.

Rootgram은 큰 분산을 갖거나 비정규 형태의 데이터를 위한 히스토그램입니다.

Rootgram * 히스토그램의 변형으로 데이터가 비정규적이거나 큰 분산을 가지는 경우, 정확한 분포를 파악하기 위해 사용됩니다. * 일반적으로 히스토그램은 데이터의 빈도를 직접적으로 나타내기 때문에, 큰 값이 빈번하게 발생하는 경우 상대적으로 작은 값을 잘 드러내지 못하는 경향이 있습니다. 반면, Rootgram은 빈도를 제곱근 형태로 변환하여, 데이터 분포의 차이를 더 잘 시각화할 수 있도록 돕습니다 * 여기서