글을 쓰는 것은 Unknown Issue를 파악하기 위한 가장 쉬운 방법이다.

부시 정부시절 도널드 럼스펠드 국방부 장관이 지식의 속성과 한계에 대해서 다음과 같이 언급한 적이 있다.

“There are known knowns: there are things we know we know. We also know there are known unknowns: that is to say we know there are some things we do not know. But there are also unknown unknowns – there are things we do not know we don’t know.” ("알려진 것이 있다: 우리가 알고 있는 것이 있다. 우리는 또한 알려진 미지의 것, 즉 우리가 모르는 것이 있다는 것을 알고 있습니다. 그러나 알려지지 않은 미지의 것, 즉 우리가 알지 못하는 것이 있다는 것도 알고 있습니다.")

말장난 같으면서도, 사실 삶에서 항상 경계하는 부분이다. 특히 공부를 하면 할 수록 이런 부분이 모르는 것조차 모르는 경우가 지속해서 보이다 보니, 삶에서 쉽게 자신감을 갖기가 어려운 상황이 자꾸 펄쳐진다. 자연스럽게 더닝크루거 효과를 떠올리게 한다.

이는 대부분의 사람들은 본인을 중상위권으로 평가하는 경향이 있다는 현상을 말하는 효과로 실력이 있을 수록 메타인지가 잘 발달되어 본인의 실력에 대해서 겸손하게 평가하는데 반해서 실력이 부족할 수록 그렇지 않다는 말로 결국 실력의 부족에 대해서 설명하는 잘 알려진 연구이기도 하다.

작년 중순부터 프로덕트 조직을 맡으면서 점차 데이터 과학에 대한 지식을 쌓아나갈 수 있는 시간은 제한되고 점차 보고에 대한 시간이 늘어나다 보니 마음이 괜스레 불안해진다. 기존에 가지고 있는 틀에 대해서 자꾸 잊어버리는 듯한 느낌이 드는 탓이다. 바쁘다 보니 점차 글도 쓸 시간이 줄어들고 있다.

그리고 집에 와서는 육아에 집중하다보니, 문득 이런 상황일 수록 글을 더 많이 써야겠다는 생각이 들었다. 글을 쓰다 보면 자연스럽게 머리 속에 떠돌고 있던 지식들을 연결하고 이를 실체화해서 단어 등 상징적인 기호로 표기를 해야하기 때문이다. 이 과정에서 자연스럽게 잘 아는 부분과 모르는 부분들이 드러나게 된다. 보통 이러한 과정을 통해서 내가 어떠한 유형의 사람인지 대략 정제되어 발견된다. 예를 들어 디테일이 강한 사람인지, 아니면 그저 큰 그림에 강한 것인지 등등 말이다.

여기서 오는 두려움을 맞닥뜨리고 그저 피하지만 않는다면 더 나아갈 수 있는 원동력을 얻게 될 것이라는 생각이, 글을 더 자주 써야겠다는 생각에 방점을 찍었다. 그래서 나는 어떠한 사람이고, 어떠한 사람이 될 수 있을까? 나 스스로도 나에 대해서 잘 모르는 부분이 있다는 것을 모르는 사실이 있다면 그 부분은 어디일까? 사람이 바빠지게 되니, 비로소 이렇게 조급해지면서 글쓰기에 대한 재촉이 시작되었다.

어떠한 주제를 써야할지는 잘 모르겠다. 하지만 쓰고자 하는 마음만 지속해서 가져갈 수 있다면, 주제를 발견하기 위해서 관찰하고자 하는 욕구는 커질 것이요. 글주제는 나올 것이라고 믿으며, 이 글 주제를 내려쓰는 모습 속에서 자연스럽게 글의 세밀함은 다듬어지지지 않을 것이라고 생각한다.

이렇게 되면 내가 몰랐던 나의 문제나.. 나조차도 지금 상황을 타개하기 위해서 기존에 인지하지 못했던 나의 능력, 그리고 시도해야할 부분이 보이지 않을까 기대하면서 오늘 글은 마무리 한다.

Read more

OLS 기반 인과추론 시 오차항 관련 체크 필요 가정

OLS 기반 인과추론 시 오차항 관련 체크 필요 가정

배경 * 아래 글을 DANBI에서 보다가 더 알아보게 되었습니다. OLS를 떠받치는 몇 개의 기둥이 있는데 그중 실용적으로 가장 중요한 것이 일치성(consistency)다. 쉽게 말해서 OLS를 통해 도출된 추정량이 있을 때 샘플사이즈가 커지면서 이 값이 참 값으로 접근한다는 것이다. 일치성이 충족되면 우리는 적당하게 큰 표본에 대해서 추정치가 좋은 속성을 지니고 있다고

인공지능이 문제가 아니라 결국 사람이 문제가 될 것입니다.

인공지능이 문제가 아니라 결국 사람이 문제가 될 것입니다.

사람들이 AI가 필요하다고 생각하는 시점 저 판사를 얼른 AI로 교체해야 한다. 유튜브에서 뉴스를 보다 보면 정말 많이 보이는 덧글입니다. 이러한 내용의 덧글이 달릴 때마다, 정말 많은 사람들이 공감을 표하곤 합니다. 왜 이렇게 사람들은 이러한 주장에 공감을 표하는 것일까? AI는 시킨대로 하기 때문에 공정하다는 인식 여러 이유가 있겠지만, 사람들은 아마 AI가

BG/NBD 모델은 고객 생애가치를 추정하는데 사용되는 확률 모델입니다.

BG/NBD 모델은 고객 생애가치를 추정하는데 사용되는 확률 모델입니다.

1. BG/NBD 모델이란? * BG/NBD(Beta-Geometric/Negative Binomial Distribution) 모델은 **고객의 생애 가치(Customer Lifetime Value, CLV)**를 추정하는 데 사용되는 확률적 모델입니다. * 특히 고객이 반복 구매를 할지, 아니면 더 이상 활동하지 않을지를 추정하는 데 유용합니다. 이 모델은 고객의 구매 행태를 두 가지 중요한 개념으로 나눕니다: * 고객은 활성(active)

다중공선성은 잘못된 인과추론 결과를 만들어낼 수 있습니다.

다중공선성은 잘못된 인과추론 결과를 만들어낼 수 있습니다.

다중공선성(Multi Collinearity) * **Multi-Collinearity(다중공선성)**는 독립 변수들 간의 강한 상관관계가 존재할 때 발생합니다. 즉, 한 독립 변수가 다른 독립 변수에 의해 설명될 수 있을 정도로 상관관계가 높은 상황을 의미합니다. * 이 문제는 주로 회귀 분석에서 나타나며, 변수들 간의 관계를 해석하는 데 있어 큰 장애물이 될 수 있습니다. * 일반적인 회귀식을 $Y=