[책] OKR,전설적인 벤처투자자가 구글에 전해준 성공 방식

왜 읽게 되었을까? 전사 단위의 KPI가 명확하고 빠르게 성장하는 회사를 경험하면서 한 편으로는 이러한 성장이 완만해지게 된 이후의 미래에 대한 걱정이 계속 있었다. 경험해보지 못한 완만한 성장곡선, 그리고 측정이 닿았을 때 이에 대한 임직원의 충격은 상당히 클 것이라고 생각했다. 따라서 그 전에 조직에 대한 이해도를 높이고 어떻게 일을 해야 할지 고민하던 차에 이 책을 접하게… Continue reading [책] OKR,전설적인 벤처투자자가 구글에 전해준 성공 방식

LIME 구현방식 요약

Caution LIME 관련 설명이 쉽게 되어 있는 글이 있어서 필요한 부분만 발췌하여 정리해놓는다. 출처는 하단에 남겨놓았았다. LIME의 특성 LIME은 특정 모델에 대해서 전역적인 설명을 제공하지 않는다. 즉 각 인스턴스별로는 모델에 대한 설명을 각각 제공한다. 이는 특정 결정이나 결과에 가장 정확한 설명을 제공할 수 있음을 말한다. 작동방식 특정 인스턴스를 살짝 변형(일부 데이터를 Masking하거나)하여 또 다른 인스턴스를… Continue reading LIME 구현방식 요약

Dacon 15회 원자력발전소 상태 판단 대회 후기

주업무가 사업관리로 변경된 이후에는 분석을 할 기회가 그리 많지 않았기 때문에 분석의 전체 사이클을 한 번 돌아볼겸 참여하였다. 방통대 정보통계학과 학우분들과 함께 하였고 잊지 않기 위해 했던 부분들 일부를 정리해서 여기에 남긴다. (링크) File Loading  Train으로 포함된 파일이 총 828(7?)개 정도였으며 각 파일마다 Label이 할당되어 있는 구조였다. 따라서 이 파을을 모두 합쳐서 가지고 와야할 필요가… Continue reading Dacon 15회 원자력발전소 상태 판단 대회 후기

CNN, Parmeter 수 계산

Result Conv2d_5 Row / Column: (28-3) / 1 + 1 =26 Parameter Count: ((3*3) + 1) *32 =320 Conv2d_6 Row / Column:  (13-3) / 1 + 1 = 11 Parameter Count: (3*3*32+1)*64 Conv2d_7 Row / Column: (5-3)/1 + 1 = 3 Parameter Count: (3*3*64+1)*64 = 36928

[책] 좋은 선택 나쁜 선택

숫자는 거짓말을 하지 않는다. 하지만 거짓말쟁이들은 숫자를 이용할 궁리를 한다.(Figures don’t lie, but liars can figure.) 책에서 인용된 구절 중 가장 마음에 들었던 구절이다. 데이터는 중간에 왜곡을 하지 않는다. 동일한 입력에 대해서 동일한 출력결과를 보장한다. 왜곡은 데이터를 활용하는 사람에 의해 발생한다. 최근 들어 데이터가 흥하는 세상이 되면서 여기저게 AI, 빅데이터를 인용하는 사례가 빈번히 보이고 데이터에… Continue reading [책] 좋은 선택 나쁜 선택

[책]100세 인생, 다른 시야가 필요하다.

새해의 연초를 지내고 있어서인지 미래에 대한 고민을 끊임없이 하게 된다. 특히나 이전 세대가 살아온 공식을 그대로 답습하는 것이 옳은지 계속 의문을 던지다 보니 답도 없는 상황에서 고민은 계속 깊어져간다. 그러던 차에 읽게된 기사(링크)에서 100세 인생(링크)이란 책의 일독을 권하길래 읽게 된 책이다.  개인적으로 100세 장수하는 삶을 생각해본 적이 없었다. 재무적으로 장기간 일하지 않는 삶에 대한 확신하지… Continue reading [책]100세 인생, 다른 시야가 필요하다.

[책] 데이터분석의 힘- 데이터에서 전략까지.

왜 읽었는가 요즘 데이터 분석을 하면 많은 사람들이 머신러닝, 딥러닝 등의 화려한 테크닉을 떠오르는 편이지만 데이터분석가로 살다보면 사실 이러한 기술에 대한 질문을 받는 경우는 매우 드문편이다. 오히려 지표 상의 어떤 변화가 생겼는데 이에 대한 원인이 무엇인지 파악하는 경우가 업무의 대부분이다. 다시 말해서 인과추론을 해야 하는 경우가 상당히 많다. 마케팅, 사업 등 다양한 부서들은 다양한 이유를… Continue reading [책] 데이터분석의 힘- 데이터에서 전략까지.

CNN, Convolution Neural Network 주요 개념

CNN은 Convolution Neural Network(이하)로서 합성곱을 적용한 신경망으로 신경망 중에서 가장 처음 배우는, 널리 알려진 신경망중 하나이다. 대략적인 구조는 아래와 같다. Convolution과 Pooling을 거듭하는 Feature Learning Layer와 배운 내용을 바탕으로 Classification을 진행하는 Classification Layer로 구성이 된다.   CNN이라는 이름이 의미하는 것처럼 이 Neural Network의 핵심아이디어는 Convolution으로 다음과 같은 방식으로 작동한다. 위 이미지에서 볼 수 있듯이 Kernel… Continue reading CNN, Convolution Neural Network 주요 개념

Geo Experiment

Geo Experiment는 A/B Test와 유사한 Randomized Control Trail 중 하나로 지역 단위로 실험군, 대조군을 설정하여 진행한다. A/B Test에서 개개인을 기준으로 실험군을 무작위로 나누어서 진행하는 것과는 다소 다른 형태이다.  아래 그래프는 Google에서 제공하는 GeoexprimentResearch 패키지(2017년 이후 업데이트가 없다)를 기반으로 그린 그래프로 하단에 보면 캠페인 진행 이전(2/5~3/31), 캠페인 진행기간(4/1~4/28), 캠페인 진행 이후(04/49~05/05) 관측치와 예측치(반사실/CounterFactual)간에 어떤 차이가 있는지… Continue reading Geo Experiment

공공API – 기상(종관기상관측) R로 가지고 오기

기상정보를 활용하기 위해서 주로 기상자료개방포털에서 종관기상관측 데이터를 가지고 오긴 했는데 이를 매일 수작업으로 가지고 오다가 보니 오픈 API를 지원하는 것을 알게 되어서 간단하게 짜보았다. 아래 코드는 서울시를 비롯한 주요 광역시의 2018년 이후 기상데이터를 가지고 와서 특정 두 기간(18/12/01 ~ 19/01/07, 19/12/01 ~ 20/01/07) 중 평균기온의 분포를 Box Plot으로 보는 것이다. 업의 특성상 평일과 휴일간의 수치… Continue reading 공공API – 기상(종관기상관측) R로 가지고 오기