Data
Random Forest로 시계열데이터 예측하기
지금 회사에서 가장 많이 한 업무 중 하나가 바로 주문수 예측이었다. 처음에 단순히 곱셈으로 작업하던 부분을 개선해서 이전보다 좀 더 세밀히 하기는 하지만 여전히 정확도 측면에서는 개선할 부분이 많아 보이고 이와 관련된 방법을 찾으려고 노력하였다. KPI는 기본 적으로 여러 부서의 성과를 종합한 최종 수치이기 때문에 여러 변수들의 결합으로 표현할 수
Data
지금 회사에서 가장 많이 한 업무 중 하나가 바로 주문수 예측이었다. 처음에 단순히 곱셈으로 작업하던 부분을 개선해서 이전보다 좀 더 세밀히 하기는 하지만 여전히 정확도 측면에서는 개선할 부분이 많아 보이고 이와 관련된 방법을 찾으려고 노력하였다. KPI는 기본 적으로 여러 부서의 성과를 종합한 최종 수치이기 때문에 여러 변수들의 결합으로 표현할 수
Business
매일, 매주 출근 길에 밀린 뉴스레터를 읽는다.뉴닉도 있지만 그 중에는 Ruben Ugarte’s Weekly Growth Needle이라는 레터도 있다. 대충 보고 지나갈 때도 있지만 오늘 내용은 꽤 흥미로워서 생각을 남기려고 한다. 혹자는 이미 1위의 플랫폼에게 퍼포먼스마케팅이 어렵다라고 이야기 하는 사람이 많다. 하지만 플랫폼이기 때문에 필요하다고 생각한다. 플랫폼은 양면시장의 참여자간 네트워크
Data
편향은 크기가 n인 데이터 세트에서 샘플링 후 훈련시킨 모델 출력의 평균값과 실제 모델 출력 사이의 편차를 말한다. 일반적으로 모델에 대한 가설을 잘못 세우면 발생한다. 편향으로 생기는 오차는 일반적으로 훈련오차에 발생한다. 분산은 크기가 n인 데이터 세트에서 샘플링 후 훈련시킨 모델 출력의 분산을 뜻한다. 분산은 일반적으로 모델의 복잡도가 데이터 크기에 비해 높을
Data
※ 해당 글은 원 저자은 Gilles Vandewiele 씨의 허락을 받고 번역하였습니다.(링크) * 저자는 솔루션 코드를 공개하였습니다.(링크) 2 월 24 일, 캐글은 리버풀 대학과 공동으로 25,000 달러의 상금과 함께 새로운 리서치 컴피티션(Research Competition)을 발표했습니다. 이 경쟁에서 우리는 이온 채널(Ion Channel)데이터에 해당하는 전기 신호를 제공 받았으며, 각
Data
Permutation Importance과 Pertial Dependence Plot은 Machine Learning Model에서 Input과 Output간의 관계를 이해하기 위한 가장 쉬운 방법론 중 하나이다. Model을 평가하는 여러 방식이 있지만 그 중에 우리는 Output에 대해서 어떠한 Feature가 가장 영향을 많이 주었는지를 보고 싶을 때가 있는데 이러한 Concept을 Feature Importance라고 말한다. 오늘 정리하는 Permutation Importance와 Partial Dependence Plot은
Book
숫자는 거짓말을 하지 않는다. 하지만 거짓말쟁이들은 숫자를 이용할 궁리를 한다.(Figures don’t lie, but liars can figure.) 책에서 인용된 구절 중 가장 마음에 들었던 구절이다. 데이터는 중간에 왜곡을 하지 않는다. 동일한 입력에 대해서 동일한 출력결과를 보장한다. 왜곡은 데이터를 활용하는 사람에 의해 발생한다. 최근 들어 데이터가 흥하는 세상이 되면서 여기저게
Data
CNN은 Convolution Neural Network(이하)로서 합성곱을 적용한 신경망으로 신경망 중에서 가장 처음 배우는, 널리 알려진 신경망중 하나이다. 대략적인 구조는 아래와 같다. Convolution과 Pooling을 거듭하는 Feature Learning Layer와 배운 내용을 바탕으로 Classification을 진행하는 Classification Layer로 구성이 된다. CNN이라는 이름이 의미하는 것처럼 이 Neural Network의 핵심아이디어는 Convolution으로 다음과 같은 방식으로 작동한다.
Data
기상정보를 활용하기 위해서 주로 기상자료개방포털에서 종관기상관측 데이터를 가지고 오긴 했는데 이를 매일 수작업으로 가지고 오다가 보니 오픈 API를 지원하는 것을 알게 되어서 간단하게 짜보았다. 아래 코드는 서울시를 비롯한 주요 광역시의 2018년 이후 기상데이터를 가지고 와서 특정 두 기간(18/12/01 ~ 19/01/07, 19/12/01 ~ 20/01/07)
Data
목적 퍼널 분석을 하기 위해 로그 데이터에 직접 접근을 하고자 할 때가 있다. 하지만 보통 로그 데이터의 사이즈는 매우 커서 조회 작업 자체가 어려운 경우가 있다. 이로 인해서 액션(서비스 기능 개선 또는 마케팅)에 대한 의사결정 자체를 하기가 어려운 경우가 많다. 그리고 어떻게든 데이터를 잘게 쪼개서 데이터를 분석했다 해도,
Business
제목: 마케팅 평가 바이블(링크) 평점: 4 / 5 독서 기간: 17/08/21– 17/08/27 마케팅은 돈을 버는 부서인가 돈을 쓰는 부서인가? 한창 비즈니스 인텔리전스(Businss Intelligence) 부서에서 일하다가 마케팅 부서로 자리를 옮겼을 때 매번 자문했던 질문이다. 이전 부서에는 한국 최대의 화장품 회사를 대상으로 내 능력을 팔았기에 확실히 나는
Business
하버드 비즈니스 리뷰를 훑어보다 재미있는 글이 하나 올라왔다. 글의 원 제목은 “When AI becomes the new face of your brand“이다. AI가 빠른 속도로 퍼지고 있다. 엑센추어(Accenture)에서 1000여개의 글로벌 기업을 대상으로 AI 활용여부를 조사해본 결과 39%의 회사들이 고객 대응에, 35%의 회사들이 영업과 마케팅에 AI를 사용하고 있다고