LIME 구현방식 요약

Caution LIME 관련 설명이 쉽게 되어 있는 글이 있어서 필요한 부분만 발췌하여 정리해놓는다. 출처는 하단에 남겨놓았았다. LIME의 특성 LIME은 특정 모델에 대해서 전역적인 설명을 제공하지 않는다. 즉 각 인스턴스별로는 모델에 대한 설명을 각각 제공한다. 이는 특정 결정이나 결과에 가장 정확한 설명을 제공할 수 있음을 말한다. 작동방식 특정 인스턴스를 살짝 변형(일부 데이터를 Masking하거나)하여 또 다른 인스턴스를… Continue reading LIME 구현방식 요약

Dacon 15회 원자력발전소 상태 판단 대회 후기

주업무가 사업관리로 변경된 이후에는 분석을 할 기회가 그리 많지 않았기 때문에 분석의 전체 사이클을 한 번 돌아볼겸 참여하였다. 방통대 정보통계학과 학우분들과 함께 하였고 잊지 않기 위해 했던 부분들 일부를 정리해서 여기에 남긴다. (링크) File Loading  Train으로 포함된 파일이 총 828(7?)개 정도였으며 각 파일마다 Label이 할당되어 있는 구조였다. 따라서 이 파을을 모두 합쳐서 가지고 와야할 필요가… Continue reading Dacon 15회 원자력발전소 상태 판단 대회 후기

CNN, Parmeter 수 계산

Result Conv2d_5 Row / Column: (28-3) / 1 + 1 =26 Parameter Count: ((3*3) + 1) *32 =320 Conv2d_6 Row / Column:  (13-3) / 1 + 1 = 11 Parameter Count: (3*3*32+1)*64 Conv2d_7 Row / Column: (5-3)/1 + 1 = 3 Parameter Count: (3*3*64+1)*64 = 36928

Geo Experiment

Geo Experiment는 A/B Test와 유사한 Randomized Control Trail 중 하나로 지역 단위로 실험군, 대조군을 설정하여 진행한다. A/B Test에서 개개인을 기준으로 실험군을 무작위로 나누어서 진행하는 것과는 다소 다른 형태이다.  아래 그래프는 Google에서 제공하는 GeoexprimentResearch 패키지(2017년 이후 업데이트가 없다)를 기반으로 그린 그래프로 하단에 보면 캠페인 진행 이전(2/5~3/31), 캠페인 진행기간(4/1~4/28), 캠페인 진행 이후(04/49~05/05) 관측치와 예측치(반사실/CounterFactual)간에 어떤 차이가 있는지… Continue reading Geo Experiment

공공API – 기상(종관기상관측) R로 가지고 오기

기상정보를 활용하기 위해서 주로 기상자료개방포털에서 종관기상관측 데이터를 가지고 오긴 했는데 이를 매일 수작업으로 가지고 오다가 보니 오픈 API를 지원하는 것을 알게 되어서 간단하게 짜보았다. 아래 코드는 서울시를 비롯한 주요 광역시의 2018년 이후 기상데이터를 가지고 와서 특정 두 기간(18/12/01 ~ 19/01/07, 19/12/01 ~ 20/01/07) 중 평균기온의 분포를 Box Plot으로 보는 것이다. 업의 특성상 평일과 휴일간의 수치… Continue reading 공공API – 기상(종관기상관측) R로 가지고 오기

[딥러닝] Activation Function.

가설공간을 풍부하게 만들어 층을 깊게 만드는 장점을 살리 위해서 Dense Layer 이후에 붙게 되는 Function이다. 여기서 가설공간이란 어떤 문제를 해결하는데 필요한 가설등의 집합이다. 예를 들어서 그녀가 나를 좋아해줄지를 맞춰주는 문제를 풀어본다고 할 때, 가설은 다음과 같이 무수하게 만들어볼 수 있다.  - 가설1:  꽃을 좋아하면 그녀는 나를 좋아해줄 것이다. - 가설2: 영화를 보자고 하면 그녀는 나를 좋아해줄… Continue reading [딥러닝] Activation Function.

[R]“origin” must be supplied

상황 Crawling 데이터 중  Date Format이 '%m.%d"로 되 있는 데이터가 있었는데, 해당 데이터 Handling 중 "origin must be supplied" 에러가 지속해서 발생하였음 해결 해당 컬럼의 Type이 Character가 아닌 상황에서 as.Date로 Formatting 시도 후 비교연산을 한 것이 문제였음. 따라서 character로 변경하는 작업을 사전에 해준 결과 문제 해결되었음 참고 R dates “origin” must be supplied

HyperLogLog – 대량 데이터 분석시 유용한 확률적 자료구조

목적 퍼널 분석을 하기 위해 로그 데이터에 직접 접근을 하고자 할 때가 있다. 하지만 보통 로그 데이터의 사이즈는 매우 커서 조회 작업 자체가 어려운 경우가 있다. 이로 인해서 액션(서비스 기능 개선 또는 마케팅)에 대한 의사결정 자체를 하기가 어려운 경우가 많다. 그리고 어떻게든 데이터를 잘게 쪼개서 데이터를 분석했다 해도, 그 데이터의 샘플링 사이즈가 너무 작아(분, 시간… Continue reading HyperLogLog – 대량 데이터 분석시 유용한 확률적 자료구조

시계열 모형의 작성

방통대 "금융 데이터의 이해"를 듣다가 간략하게 메모, 100% 이해하고 있지는 못해서, 부족한 부분은 계속 추가할 예정 시계열의 안정화 평균과 분산이 일정한지 파악하고 그렇지 않을 경우 차분 또는 로그를 통해 안정화시킨다. 모형의 식별 상관계수(ACF)와 부분상관계수(PACF)를 보고 모형이 잘 설명되는지 판단한다.상관도표에서 시차별로 기준선보다 높은 상관계수가 나오는 영역이 많다면 해당 구간의 경우 일정한 관계가 있음을 확인 대표적인 모형은… Continue reading 시계열 모형의 작성

탐색적 데이터 분석(EDA)

R을 활용한 데이터 과학(해들리위컴, 개럴 그롤문드 저)를 보면서 정리하였으며 지속 업데이트 예정.EDA는 말그대로 탐색이기 때문에 자칫하면 무한정 헤매는 상황을 겪기 쉽기 때문에 풀고자 하는 질문이 무엇인지등에 대한 명확한 정의가 선행되어야 한다. 탐색적 데이터 분석은 다음과 같은 반복적 작업으로 구성되어 있음 데이터에 대한 질문을 만든다.데이터를 시각화, 변형 및 모델링하여 질문에 대한 잡을 찾는다질문을 개선하거나, 새로운 질문을… Continue reading 탐색적 데이터 분석(EDA)