Bongho Lee

Bongho Lee
DataFrame은 Pandera로, 모델은 Pydantic으로 데이터를 검증한다.

Python

DataFrame은 Pandera로, 모델은 Pydantic으로 데이터를 검증한다.

Pandera: 데이터프레임 검증에 최적화된 도구 주요 장점 * Pandas와 통합: Pandas 데이터프레임에 대해 스키마 기반 검증을 수행합니다. * 유연한 검증 조건: 열 데이터 타입, 값 범위, Null 여부 등 다양한 검증 조건을 정의할 수 있습니다. * 명확한 오류 메시지: 스키마 불일치에 대한 명확한 오류 메시지를 제공합니다. 단점 * 대용량 데이터 검증에서는 속도가 느릴 수

Tobit Regression은 Censored Data에 적합한 Regression이다.

Data

Tobit Regression은 Censored Data에 적합한 Regression이다.

Tobit Regression * Tobit 회귀(Tobit Regression)는 종속 변수가 특정 값에서 절단(Censored)된 상황에서 데이터를 분석하기 위해 사용되는 통계 기법입니다. * James Tobin이 처음 제안한 이 모델은 경제학과 사회과학 분야에서 자주 사용되며, 일반 선형 회귀로는 설명할 수 없는 상황에서 효과적으로 적용할 수 있습니다. Tobit Regression 수식 1. 관측된 종속 변수

Conformalized Quantile Regression은 예측 불확실성을 정량화한다.

Data

Conformalized Quantile Regression은 예측 불확실성을 정량화한다.

CQR is * **Conformalized Quantile Regression(CQR)**은 예측 불확실성을 정량화하기 위해 개발된 방법으로, 회귀 문제에서 신뢰 가능한 예측 구간을 생성하는 데 사용됩니다. * 전통적인 **Quantile Regression(분위수 회귀)**과 **Conformal Prediction(적합 예측)**을 결합한 기법으로, 데이터의 분포 가정 없이 사후적 예측 구간을 제공합니다. Motivation * 기존의 예측 방법은 보통 점 예측(

구성원의 사기를 꺾고 퇴사에 이르게 하는 방법 3가지

Team

구성원의 사기를 꺾고 퇴사에 이르게 하는 방법 3가지

대체로 리더로 커리어를 전환하게 되면, 실무에 대해서 집중하기 어려워지게 된다. 실무에 집중하기 보다는 회사와 사람에 대해서 보다 집중해야 하기 때문이다. 즉, 탁월한 리더는 회사와 사람에 대해서 확실한 족적을 남겨야 한다. 반대로 말하면, 탁월하지 않은 리더는 회사와 사람에 대해서 성과보다는 상처만 남기는 경우를 종종 볼 수 있다. 회사생활을 하다 보면 탁월한

Signaling Theory

Theory

Signaling Theory

Signaling Theory (신호 이론) * **Signaling Theory(신호 이론)**는 의사소통 과정에서 한쪽 당사자가 정보를 신호를 통해 다른 쪽 당사자에게 전달하는 과정을 설명하는 이론입니다. * 이 이론은 경제학, 생물학, 경영학, 심리학 등 다양한 분야에서 활용되며, 정보의 비대칭성이 존재하는 상황에서 등장한 개념입니다. 이 이론이 등장한 이유 * **정보 비대칭성(Information Asymmetry)**은 시장에서 두

책에서 밑줄을 긋기 전 고민해야 하는 것

Book

책에서 밑줄을 긋기 전 고민해야 하는 것

학교를 다닐 때 밑줄을 많이 친 것은 열심히 공부한 흔적이라고 생각한 적이 있었다. 그래서 항상 열심히 그었다. 공부를 한 것을 티내고 싶었기 때문이다. 물론 줄을 그은 만큼 나는 성적이 어느 정도는 잘 나오는 것같았다. 물론 두어번 그을 때나 성적이 올랐지, 세번 네번 그을 때는 공부를 한다기 보다는 줄 긋는 것에만

책_ 삶의 이야기를 쓰는 법 -모든 순간과 방향에서 끊임없이 쓰자.

Writing

책_ 삶의 이야기를 쓰는 법 -모든 순간과 방향에서 끊임없이 쓰자.

글을 잘 쓰고 싶었다. 글 중에도 여러 형태의 글이 있겠지만 스토리가 잘 살아 있는 글을 쓰고 싶었다.흐름 측면에서 어느정도는 상상이 잘 되는 그런 글을 쓰고 싶었다. 흐름이 좋은 글은 읽기에도 막힘이 없는 글이라고 생각하였다. 그리고 막힘이 없는 글을 잘 써보기 위해서는 매일 글을 쓰는 것만큼 좋은 훈련이 없다고 생각하였다.

Zero Inflated Negative Binomial Model은 0이 과도하게 많은 데이터에 유용하다.

Statistics

Zero Inflated Negative Binomial Model은 0이 과도하게 많은 데이터에 유용하다.

Motivation * **Zero-Inflated Negative Binomial Model(ZINB)**은 데이터셋에서 0 값이 과도하게 나타나는 경우에 이를 효과적으로 다루기 위해 개발된 모델입니다. 이 모델은 두 가지 과정을 결합하여 0 값이 생성되는 메커니즘과 실제 데이터 분포(음이항 분포)를 동시에 설명합니다 * 일반적인 음수 이항 분포(Negative Binomial)는 과도한 분산(overdispersion)을 다루는 데

활자를 넘어 구조적 측면에서 독서를 해야 하는 이유

Book

활자를 넘어 구조적 측면에서 독서를 해야 하는 이유

작년부터 시작해서 정말 많은 책을 읽었던 것같다. 연단위 100권 이상을 읽었으니 아마 대한민국 연평균 독서량의 100명분을 혼자 한 것이나 다름없었다. 그런데 이렇게 책을 읽다보면, 어느 시점부터인가 모든 책이 다 비슷한 내용을 언급하는 것같아 흥미는 떨어지고 스킵하며 읽는 속도는 점차 빨라지기 시작한다. 언틋 보면 속독같이 보여서 대단해보일 때도 있지만, 책에서 활자

Output 중심의 Readless 독서법

Book

Output 중심의 Readless 독서법

주의력 관련 유명한 실험으로 고릴라실험이 있다. 심리학자 다니엘 사이먼스(Daniel Simons)와 크리스토퍼 차브리스(Christopher Chabris)가 설계한 실험으로 피실험자는 사람들이 농구를 하는 장면을 관찰하면서 패스 횟수를 세야 하는 미션을 부여 받는다. 이 때 중간에 고릴라 복장을 한 사람이 지나간다. 실험이 종료된 이후, 피실험자에게 고릴라를 보았는지 물어본다. 이 때 절반의

삶 전반에 걸쳐 일관성있는 철학을 가졌는가

Life

삶 전반에 걸쳐 일관성있는 철학을 가졌는가

가난한 찰리의 연감이라는 책을 읽기 시작하고 있다. 이 책을 읽게 된 계기는 시기적인 부분과 맞물렸다. 얼떨결에 들어간 독서모임의 첫 책이었기 때문이다. 그렇게 시간적 여유와 상관없이 읽어야 했던 책이었다. 그리고 독서 모임에서 나는 무엇인가 말을 해야 했다. 독서모임을 시작하기 5분 전, 급히 책을 훑어보던 나에게 보이는 문구가 있었다. 기분이나 인식을 바꾸기

Holdout Group과 Control Group은 비슷하나 목적이 다르다.

A/B Test

Holdout Group과 Control Group은 비슷하나 목적이 다르다.

Holdout Group은 실험에서 완전히 제외된 그룹으로, 주로 장기적인 영향을 평가하거나, 베이스라인을 측정하기 위해서 사용되는 경우가 많다. 언틋 보면 Holdout Group은 Control Group과 큰 차이가 없어보이기도 하다. 실제로 시험을 셋팅할 때 가장 많이 듣는 질문 중의 하나가 바로 왜 Control Group과 Holdout Group을 별도로 셋팅하는가이다. Holdout Group과 Control Group의 차이는 실험에

과거를 잘 정리하고 내일을 바라봐야 하는 이유

Life

과거를 잘 정리하고 내일을 바라봐야 하는 이유

과거의 나도 중요하지만, 과거의 모든 삶을 오롯이 현재와 연결시킬 필요는 없다. 두가지 이유가 있다. 첫번째로는 크게 생각하기 위해서는 과거의 이야기에 너무 묶여서는 안된다. 사실 자기암시 자체가 어떻게 보면 일반화하기에는 무리가 있다고 생각한다. 하지만 철학자 비트겐슈타인이 언급한 바와 같이 사람의 사고는 결국 본인이 만든 세계 안에 언어로 표현되어 제약되는 것을 감안하다면,