[책] 데이터분석의 힘- 데이터에서 전략까지.

왜 읽었는가 요즘 데이터 분석을 하면 많은 사람들이 머신러닝, 딥러닝 등의 화려한 테크닉을 떠오르는 편이지만 데이터분석가로 살다보면 사실 이러한 기술에 대한 질문을 받는 경우는 매우 드문편이다. 오히려 지표 상의 어떤 변화가 생겼는데 이에 대한 원인이 무엇인지 파악하는 경우가 업무의 대부분이다. 다시 말해서 인과추론을 해야 하는 경우가 상당히 많다. 마케팅, 사업 등 다양한 부서들은 다양한 이유를… Continue reading [책] 데이터분석의 힘- 데이터에서 전략까지.

CNN, Convolution Neural Network 주요 개념

CNN은 Convolution Neural Network(이하)로서 합성곱을 적용한 신경망으로 신경망 중에서 가장 처음 배우는, 널리 알려진 신경망중 하나이다. 대략적인 구조는 아래와 같다. Convolution과 Pooling을 거듭하는 Feature Learning Layer와 배운 내용을 바탕으로 Classification을 진행하는 Classification Layer로 구성이 된다.   CNN이라는 이름이 의미하는 것처럼 이 Neural Network의 핵심아이디어는 Convolution으로 다음과 같은 방식으로 작동한다. 위 이미지에서 볼 수 있듯이 Kernel… Continue reading CNN, Convolution Neural Network 주요 개념

Geo Experiment

Geo Experiment는 A/B Test와 유사한 Randomized Control Trail 중 하나로 지역 단위로 실험군, 대조군을 설정하여 진행한다. A/B Test에서 개개인을 기준으로 실험군을 무작위로 나누어서 진행하는 것과는 다소 다른 형태이다.  아래 그래프는 Google에서 제공하는 GeoexprimentResearch 패키지(2017년 이후 업데이트가 없다)를 기반으로 그린 그래프로 하단에 보면 캠페인 진행 이전(2/5~3/31), 캠페인 진행기간(4/1~4/28), 캠페인 진행 이후(04/49~05/05) 관측치와 예측치(반사실/CounterFactual)간에 어떤 차이가 있는지… Continue reading Geo Experiment

공공API – 기상(종관기상관측) R로 가지고 오기

기상정보를 활용하기 위해서 주로 기상자료개방포털에서 종관기상관측 데이터를 가지고 오긴 했는데 이를 매일 수작업으로 가지고 오다가 보니 오픈 API를 지원하는 것을 알게 되어서 간단하게 짜보았다. 아래 코드는 서울시를 비롯한 주요 광역시의 2018년 이후 기상데이터를 가지고 와서 특정 두 기간(18/12/01 ~ 19/01/07, 19/12/01 ~ 20/01/07) 중 평균기온의 분포를 Box Plot으로 보는 것이다. 업의 특성상 평일과 휴일간의 수치… Continue reading 공공API – 기상(종관기상관측) R로 가지고 오기

[딥러닝] Activation Function.

가설공간을 풍부하게 만들어 층을 깊게 만드는 장점을 살리 위해서 Dense Layer 이후에 붙게 되는 Function이다. 여기서 가설공간이란 어떤 문제를 해결하는데 필요한 가설등의 집합이다. 예를 들어서 그녀가 나를 좋아해줄지를 맞춰주는 문제를 풀어본다고 할 때, 가설은 다음과 같이 무수하게 만들어볼 수 있다.  - 가설1:  꽃을 좋아하면 그녀는 나를 좋아해줄 것이다. - 가설2: 영화를 보자고 하면 그녀는 나를 좋아해줄… Continue reading [딥러닝] Activation Function.

[책]원인과 결과의 경제학(Causal Inference/인과추론) 입문서

왜읽었는가? 표본에 기반한 통계검정 및 다양한 통계적 학습도 중요하지만, 매일 실제로 발생하는 업무는 인과관계에 대한 규명이 대부분임 따라서 인과관계에 대한 추론이 실제로는 업무에서 더 중요할 수도 있음 이 책은 인과추론의 입문서 성격 인과추론 사실관계와 인과관계는 다르다 인과관계가 있는지 확인하기 위한 세가지 포인트 우연의 일치는 아닌가? 제 3의 변수는 없는가? (교란요인의 존재 유무) 역의 인과관계는 존재하지… Continue reading [책]원인과 결과의 경제학(Causal Inference/인과추론) 입문서

[R]“origin” must be supplied

상황 Crawling 데이터 중  Date Format이 '%m.%d"로 되 있는 데이터가 있었는데, 해당 데이터 Handling 중 "origin must be supplied" 에러가 지속해서 발생하였음 해결 해당 컬럼의 Type이 Character가 아닌 상황에서 as.Date로 Formatting 시도 후 비교연산을 한 것이 문제였음. 따라서 character로 변경하는 작업을 사전에 해준 결과 문제 해결되었음 참고 R dates “origin” must be supplied

HyperLogLog – 대량 데이터 분석시 유용한 확률적 자료구조

목적 퍼널 분석을 하기 위해 로그 데이터에 직접 접근을 하고자 할 때가 있다. 하지만 보통 로그 데이터의 사이즈는 매우 커서 조회 작업 자체가 어려운 경우가 있다. 이로 인해서 액션(서비스 기능 개선 또는 마케팅)에 대한 의사결정 자체를 하기가 어려운 경우가 많다. 그리고 어떻게든 데이터를 잘게 쪼개서 데이터를 분석했다 해도, 그 데이터의 샘플링 사이즈가 너무 작아(분, 시간… Continue reading HyperLogLog – 대량 데이터 분석시 유용한 확률적 자료구조

[후기] 방통대 정보통계학과 3학년 1학기

2월 쯔음이었던 것 같다. 안그래도 회사 업무로 더 바빠질 것이 예견되는 상황에서 고심끝에 편입을 하기로 결정하였고 4개월이 지나갔다. 이미 예상한대로 2월 이후부터는 훨씬 더 업무가 바빠지게 되었고 그 결과 오롯이 학업에 집중하지는 못했지만, 그래도 양호한 성적으로 학기를 마무리하게 되었다. 그래서 방통대 1학기를 무사히 마친 기념으로 방통대 1학기를 다니면서 느꼈던 방통대의 장단점 및 개인적인 아쉬움 및… Continue reading [후기] 방통대 정보통계학과 3학년 1학기

링글 English Re:Boot 세미나 정리

오늘 연사로 참석한 이성파(Co-Founder) 대표는 사람들이 일반적으로 물어보는 질문(Common Question)을 기반으로  자신의 경험을 빌어 대답하는 형태로 세미나의 1부를 진행하였다. 아래 내용은 그 Question에 대한 핵심만 정리한 것. Common Question Question 1) 단어가 늘지 않는 것 같다. 표현이 계속 같아요 눈으로 보면 다 알겠는데, 막상 말로 하면 잘 모르겠어요 Answer 정말 잘 알고 있는게 맞을까요?(Collocation) 몰라도… Continue reading 링글 English Re:Boot 세미나 정리