Data

수식 없이 등분산에 대한 내용을 전달해보기

빅데이터라는 키워드를 시작으로 최근에는 AI까지 회사 전반에 걸쳐 데이터를 적용해서 업무를 하기 위해서 노력하는 분위기가 형성되어 있다. 정말 이해가 되지 않는 주관적이고 정성적인 이유를 기반으로 업무하는 상황에 비해서는 확실히 좋은 세상임에는 틀림없다. 하지만 하나만 아는 사람이 정말로 무섭다고, 숫자만 쓰면 모두 데이터 기반의 효율적인 의사결정이라고 간주하면서 다양한 수식을 전제조건에 대한
Bongho Lee

[책]AI 관련 지금 벌어지고 있는 랜드스케이프를 보고 싶다면, AI 전쟁

대화내용을 옮긴 책의 특성상, 만연체가 곳곳에 보인 덕분에 오히려 핵심만 파악하고 빠르게 넘길 수 있었던 책으로 주말을 빌려 빠르게 훑어보았다. AI는 확실히 사회 전반에 걸쳐 큰 변화를 가지고 오고 있다. 그리고 그 변화만큼이나 사회 내부에서 변화해야할 것도, 그리고 연구하는 것도 정말 많다. Weekly Arxiv로 듣던 내용을 넘어서 상당히 많은 내용을
Bongho Lee

Fisher Information의 직관적인 이해

Fisher Information을 직관적으로 이해하기 위해서는 이계도함수를 알 필요가 있다. 이계도함수는 쉽게 생각하면 변화량의 변화량을 나타낸다. 즉 기울기가 변화하는 속도를 의미한다. 이차함수 $f(x)=ax^2 +b$에서 $f'(x)=2ax$이다. 이 걸 다시 미분하면 $f''(x)= 2a$로 기울기가 $2a$만큼 변화한다는 것을 의미한다 a가 작아지면 작아질 수록 전체적인
Bongho Lee

[데이터조직]데이터과학자에게도 엔지니어링은 필요하다.

서론 최근에 데이터과학자와 백앤드엔지니어까지 포함해서 데이터프로덕트 팀을 구성해서 일을 해보니 드는 생각이다. 데이터과학자 중에서 최근에 일하기 시작한 분들은 컴퓨터공학도 전공인 분도 있지만 그렇지 않은 분들도 꽤 많다. 그래서인지 종종 엔지니어링 측면을 잘 모르는 분들이 있는데, 개인적으로 전공이 컴퓨터공학이어서 그럴 수도 있지만, 엔지니어링은 데이터과학자에게 점차 중요해질 것이라고 생각한다. 데이터가 더 중요하다.
Bongho Lee

Custom Loss Function in Keras

Summary * Business Impact에 기반해서 Loss Function을 수정해야할 필요가 있다. * 예를 들어 비대칭 구조(예: 지수분포)에서는 Loss값에 Weight를 줘야하는 상황이 그렇다. * Keras에서는 Model에 필요한 제반 환경을 Complie이라는 단계에서 설정하는데 이 때 Loss Function을 Keras 라이브러리에서 불러올 수도 있지만 앞서 언급한 바와 같이 Custom Loss Function을 설정할 수 있다. Example * 여기서
Bongho Lee

[리뷰] Real-Time Delivery Time Forecasting and Promising in Online Retailing

Summary * Delivery Time Prediction은 Regression 문제이기도 하지만 Result가 분단위 정도로 나눠진다고 하면 Classification 문제로 간주할 수도 있다. * 비즈니스 관련 Cost Sensitive Rule을 고려하기 위해서 Regression Tree를 사용하되, 성능을 끌어올리기 위해 Random Forest를 고려했고, 예측값이 정규분포가 아닐 가능성을 고려하여 Quantile로 나눠서 예측, 최종 모델은 Quantile Random Forest (for Regression)을 하였다.
Bongho Lee