모든 일에 "Why"로 시작하라

아버지와 함께 오후 일정을 소화 후 집에 오니 오후 6시였다. 해야할 것들은 많다고 느껴지는데, 무엇을 해야 할지 모르겠다라는 생각이 머리를 맴돌았다.  그래서 오전에 읽을까 하여 Read it Later로 북마크해놓은 ‘챗GPT의 아버지’ 샘 알트만은 어떤 사람인가 글을 읽기 시작하였다.

이 글을 대략 빠르게 훑어서 마지막에 갈 때 쯤, 그 생각이 들었다.

이거 읽고 뭔가를 남겨야 하나?

항상 그렇듯이. 그래야 하나 라는 생각이 들어서, 어떻게 남겨야 할지 고민하기 시작했다. 그대로 복붙은 말그대로 표절(Plagiarism)이니까, 어떻게 남기면 좋을지 생각하던 끝에 문득 그 생각이 들었다.

나는 왜 이 글을 북마크해놓았던 것일까?

북마크할 시점으로 돌아가보니 아무래도 샘 알트먼은 비즈니스 씬에서 핫한 사람이니, **"어떤 사람"**인지를 알면 재미있지 않을가 하는 생각이 들었던 것같다. 어떤 사람인지 알면 삶에 적용해 볼 수 있을테니 말이다.

함께 북마크해놓은 쇼피파이 투자 심사 보고서(한글번역 도 비슷한 맥락이었던 것같다. 미래를 생각해본다면 창업을 고민해볼 수도 있으니, 또는 팀에게 공유해서 비즈니스 관점의 Data Science를 전파하는 것은 어떨까라는 생각에서 기대했던 것 같다.

결국 "Why"를 생각하지 않고 읽는 것은 그냥 쫓기는 삶의 전형적인 Task라는 생각이 들기 시작하였다. 샘 알트먼 역시 자신을 믿고 진실을 추구하면서 가면을 벗은 채로 삶을 살아간다. 하지만 협력의 중요성을 알고, 낙관적인 태도로부터 시작하되 멀리 바라본다.

극단적인 솔직함이 때론 부담스럽기는 하지만, 적어도 내 자신에게는 그렇게 해야 하지 않나. 싶다.

Read more

DataFrame은 Pandera로, 모델은 Pydantic으로 데이터를 검증한다.

DataFrame은 Pandera로, 모델은 Pydantic으로 데이터를 검증한다.

Pandera: 데이터프레임 검증에 최적화된 도구 주요 장점 * Pandas와 통합: Pandas 데이터프레임에 대해 스키마 기반 검증을 수행합니다. * 유연한 검증 조건: 열 데이터 타입, 값 범위, Null 여부 등 다양한 검증 조건을 정의할 수 있습니다. * 명확한 오류 메시지: 스키마 불일치에 대한 명확한 오류 메시지를 제공합니다. 단점 * 대용량 데이터 검증에서는 속도가 느릴 수

Tobit Regression은 Censored Data에 적합한 Regression이다.

Tobit Regression은 Censored Data에 적합한 Regression이다.

Tobit Regression * Tobit 회귀(Tobit Regression)는 종속 변수가 특정 값에서 절단(Censored)된 상황에서 데이터를 분석하기 위해 사용되는 통계 기법입니다. * James Tobin이 처음 제안한 이 모델은 경제학과 사회과학 분야에서 자주 사용되며, 일반 선형 회귀로는 설명할 수 없는 상황에서 효과적으로 적용할 수 있습니다. Tobit Regression 수식 1. 관측된 종속 변수