Book
[책]부의 원칙, 삶은 추세추종이고 원칙이 제일 중요하다.
Intro. 올해 들어 유달리 금융 서적을 다른 해에 비해서 상대적으로 많이 읽는 듯하다. 사회생활의 햇수만큼 마음이 불안함 때문에 그러한 듯하다. 그리고 마치 군대시절 휴가를 나와 주위를 둘러보는 군인의 마음처럼 세상에 변화를 준다는 것이 얼마나 어려운지 알게 되어 개인의 길을 미리 훑어보기 위해 안목을 넓히기 위한 것도 있다. 이 책은 사실
Book
Intro. 올해 들어 유달리 금융 서적을 다른 해에 비해서 상대적으로 많이 읽는 듯하다. 사회생활의 햇수만큼 마음이 불안함 때문에 그러한 듯하다. 그리고 마치 군대시절 휴가를 나와 주위를 둘러보는 군인의 마음처럼 세상에 변화를 준다는 것이 얼마나 어려운지 알게 되어 개인의 길을 미리 훑어보기 위해 안목을 넓히기 위한 것도 있다. 이 책은 사실
올해 초 선물하기 서비스 및 음식서비스 시장 성장 추이를 확인하기 위해서 작성했던 코드. 통계청의 예측보다 빨리 성장하고 있지만, 빨리 성장하고 있다는 것은 돌려 말하면 속도가 느려질 일이 남아 있다는 것이기 때문에 추세추종의 원칙을 잘 인지하면서 Soft-Landing을 할 수 있도록 노력해야 겠다. library(tidyverse) library(httr) library(rvest) library(jsonlite) library(
Data
지금 회사에서 가장 많이 한 업무 중 하나가 바로 주문수 예측이었다. 처음에 단순히 곱셈으로 작업하던 부분을 개선해서 이전보다 좀 더 세밀히 하기는 하지만 여전히 정확도 측면에서는 개선할 부분이 많아 보이고 이와 관련된 방법을 찾으려고 노력하였다. KPI는 기본 적으로 여러 부서의 성과를 종합한 최종 수치이기 때문에 여러 변수들의 결합으로 표현할 수
Interpretability Interpretability는 대체로 모델이 내린 의사결정을 어떻게 설명할 것인지에 대해 초점을 맞춘다. 왜 Interpretability가 중요한가 1. Interpretable한 모델은 모델활용에 신뢰를 더해줄 수 있다. 2. 모델적합 시점과 모델활용 시점은 다를 수밖에 없다. 그 차이를 이해하기 위해서는 사용된 Feature들이 모델을 훈련하는데 적합한지, 적합하다면 상대적으로 얼마나 적합한지 판단할 수 있어야 한다. (참고) 3.
Business
매일, 매주 출근 길에 밀린 뉴스레터를 읽는다.뉴닉도 있지만 그 중에는 Ruben Ugarte’s Weekly Growth Needle이라는 레터도 있다. 대충 보고 지나갈 때도 있지만 오늘 내용은 꽤 흥미로워서 생각을 남기려고 한다. 혹자는 이미 1위의 플랫폼에게 퍼포먼스마케팅이 어렵다라고 이야기 하는 사람이 많다. 하지만 플랫폼이기 때문에 필요하다고 생각한다. 플랫폼은 양면시장의 참여자간 네트워크
Business
플랫폼은 양면시장을 활용하되 특정 자원을 소유함으로써 가치를 창출하지 않는다. 그래서 내부보다는 외부에 관심을 기울임으로써 상호작용을 강화하고 확장함으로써 가치를 확장해나게 된다. 자연스럽게 일반적으로 전통적으로 사용하는 Push(푸시)보다는 바이럴 확산과 같이 단면 네트워크 효과를 극대화할 수 있는 풀(Pull) 전략이 더 요구된다. 이를 위해서는 단순 획득(Acquisition)보다는 관여(Commitment or
Business
플랫폼은 시장내 사용자들을 서로 연결해주고 상품, 서비스를 교환할 수 있도록 연결해줌으로써 모든 참여자들이 가치를 창출할 수 있게 도와 준다. 그리고 출판사의 편집자, 대학의 입학처장 등, 시장에 편입되기 위한 게이트 키퍼의 기능은 커뮤니티가 대신하게 된다. 나아가 기존의 제조업과 같은 전통산업과 달리 직접 소유하거나 통제하지 않는 자원을 활용해서 가치를 창출해야 한다. 이
Data
편향은 크기가 n인 데이터 세트에서 샘플링 후 훈련시킨 모델 출력의 평균값과 실제 모델 출력 사이의 편차를 말한다. 일반적으로 모델에 대한 가설을 잘못 세우면 발생한다. 편향으로 생기는 오차는 일반적으로 훈련오차에 발생한다. 분산은 크기가 n인 데이터 세트에서 샘플링 후 훈련시킨 모델 출력의 분산을 뜻한다. 분산은 일반적으로 모델의 복잡도가 데이터 크기에 비해 높을
Business
HBR에서 “What Is the Next Normal Going to Look Like?“이란 기사를 봤는데 코로나 이후 변하는 사회에 대해 시스코(Cisco), 월터스 클루베(Wolters Kluwer/출판사), 메드트로닉(Medtronic/헬스케어), 맥킨지(McKinsey & Company)의 CEO들이 토론한 내용을 싣고 있어서 읽어보았다. 읽는 과정에서 생각하지 못한 좋은 부분이 있어서 기억이 나는대로 발췌하였다. 일부
Life
공항 근처 호텔을 나와 비자림과 다랑쉬 오름을 다녀온 직후 땀에 젖은 몸을 이끌고 도착한 곳은 해녀의 부엌이었다. 오래된 건물 한켠에 붙어 있는 간판을 찾지 못해 지나치기도 했다. 하지만 지도를 봐도 저기 밖에는 없을 것이라고 생각한 공대생의 촉 덕분에 빠르게 찾을 수 있었다. 차를 건물 앞에 주차하고 나서 보니 바닥에 우묵가사리가
Data
※ 해당 글은 원 저자은 Gilles Vandewiele 씨의 허락을 받고 번역하였습니다.(링크) * 저자는 솔루션 코드를 공개하였습니다.(링크) 2 월 24 일, 캐글은 리버풀 대학과 공동으로 25,000 달러의 상금과 함께 새로운 리서치 컴피티션(Research Competition)을 발표했습니다. 이 경쟁에서 우리는 이온 채널(Ion Channel)데이터에 해당하는 전기 신호를 제공 받았으며, 각
Data
Permutation Importance과 Pertial Dependence Plot은 Machine Learning Model에서 Input과 Output간의 관계를 이해하기 위한 가장 쉬운 방법론 중 하나이다. Model을 평가하는 여러 방식이 있지만 그 중에 우리는 Output에 대해서 어떠한 Feature가 가장 영향을 많이 주었는지를 보고 싶을 때가 있는데 이러한 Concept을 Feature Importance라고 말한다. 오늘 정리하는 Permutation Importance와 Partial Dependence Plot은
Book
숫자는 거짓말을 하지 않는다. 하지만 거짓말쟁이들은 숫자를 이용할 궁리를 한다.(Figures don’t lie, but liars can figure.) 책에서 인용된 구절 중 가장 마음에 들었던 구절이다. 데이터는 중간에 왜곡을 하지 않는다. 동일한 입력에 대해서 동일한 출력결과를 보장한다. 왜곡은 데이터를 활용하는 사람에 의해 발생한다. 최근 들어 데이터가 흥하는 세상이 되면서 여기저게
Data
CNN은 Convolution Neural Network(이하)로서 합성곱을 적용한 신경망으로 신경망 중에서 가장 처음 배우는, 널리 알려진 신경망중 하나이다. 대략적인 구조는 아래와 같다. Convolution과 Pooling을 거듭하는 Feature Learning Layer와 배운 내용을 바탕으로 Classification을 진행하는 Classification Layer로 구성이 된다. CNN이라는 이름이 의미하는 것처럼 이 Neural Network의 핵심아이디어는 Convolution으로 다음과 같은 방식으로 작동한다.
Data
기상정보를 활용하기 위해서 주로 기상자료개방포털에서 종관기상관측 데이터를 가지고 오긴 했는데 이를 매일 수작업으로 가지고 오다가 보니 오픈 API를 지원하는 것을 알게 되어서 간단하게 짜보았다. 아래 코드는 서울시를 비롯한 주요 광역시의 2018년 이후 기상데이터를 가지고 와서 특정 두 기간(18/12/01 ~ 19/01/07, 19/12/01 ~ 20/01/07)
Book
왜읽었는가? * 표본에 기반한 통계검정 및 다양한 통계적 학습도 중요하지만, 매일 실제로 발생하는 업무는 인과관계에 대한 규명이 대부분임 * 따라서 인과관계에 대한 추론이 실제로는 업무에서 더 중요할 수도 있음 * 이 책은 인과추론의 입문서 성격 인과추론 * 사실관계와 인과관계는 다르다 인과관계가 있는지 확인하기 위한 세가지 포인트 * 우연의 일치는 아닌가? * 제 3의 변수는 없는가? (교란요인의