1월 배달업종별 통화건수[SK Data hub]

서론 아직까지는 SQL을 통해서 데이터를 핸들링하는 일이 잦다 보니 R, Python 실력이 자꾸 녹스는 듯하다. 특히 시각화 부분은 분석하다보면 분석의 즐거움 속에 자꾸 놓치고 지나가는 듯해서 꾸준히 데이터를 틈틈히 다퉈보기로 하였다. 그런 차원에서 오늘 만지는 데이터는 SK Data Hub에서 제공하는 19년 1월 서울 배달업종별 이용 통화량이다. 데이터 자체는 양이 11만건정도로 많지는 않은 편이나 서울 구,… Continue reading 1월 배달업종별 통화건수[SK Data hub]

TIL – Interaction Variable, Removing features with low or zero variance, Feature Selection with a Random Forest

Summary Feature Engineering시 파생변수 생성 방법 중의 하나인 Interaction Variable를 생성하는 방법과 Random Forest의 Feature Importance를 통해 Feature Selection을 하는 방법을 정리한다. 관련 참고 소스코드에 대한 출처는 이전 글에 정리해놓았다 Interaction Variable 보통 선형모델에서는 각 설명변수들이 반응변수에 미치는 영향은 서로 독립적이라고 가정을 한다. 하지만 그렇지 않을 수도 있다. 예를 들어 매체들을 선형변수라고 놓고 매출을 반응변수라고… Continue reading TIL – Interaction Variable, Removing features with low or zero variance, Feature Selection with a Random Forest

TIL – 전처리시 Meta 생성, UnderSampling, Imputer

목적 TIL이란 Today I Learned의 목적으로 매일 배우는 것들에 대해서 접하는 데에서 그치지 않고 기록으로 재생산함으로써 내 것으로 만들고자함. Meta Information EDA시, 데이터에 대한 타입, 이후 모델링시 사용 여부 및 타입 등을 Meta로 관리함으로써 이후 분석, 시각화 및 모델링 설계시 편이성을 높일 수 있다. Meta Data 생성 과정 아래 코드를 보면 컬럼별로 Grouping을 해주고 있다.… Continue reading TIL – 전처리시 Meta 생성, UnderSampling, Imputer

서울시 무인발급기 위치 파이썬(Python)으로 확인해보기

동사무소에 서류를 발급받으러 갈 일이 생겼다. 언택트 트렌드(Untact Trend)에 익숙한 나로서는, 동사무소보다는 무인발급기를 더 선호하하기에 무인발급기가 서울에 어디 위치하고 있는지 문득 알고 싶었다.   1. 데이터 다운로드 민원24(링크)에 접속해서 설치장소 안내를 클릭해서 설치된 장소가 안내된 Excel 파일을 받는다. 필자가 받았을 때는 5.31일 기준으로 업데이트 된 파일이었다. 해당 파일을 적절한 위치에 놓고 Python Jupyter를 켠다.  … Continue reading 서울시 무인발급기 위치 파이썬(Python)으로 확인해보기

Jupyter로 작업할 때 기본으로 Loading하는 녀석들.

jupyter 사용시 기본으로 Loading하는 녀석들.  눈에 보기 좋은 폰트로 분석해야지 분석도 더 잘 된다.

 

EDA 시 Feature 선정 방법 (Python 기준)

1. Near Zero Variance (변수값의 분산을 보고 판단) 1000개 데이터중 990개에서 A의 값이 0, 10개에서 변수 A의 값이 1인 경우는 모델링에서 유용하지 않기 때문에 제거

  2. 상관관계를 기반으로 선정 변수간 높은 상관관계가 존재할 경우, 두 변수가 같이 커지거나 작아지는 경향이 있다는 것 이 경우 모델링의 성능이 떨어지거나 모델이 불안정해질 수 있음

 … Continue reading EDA 시 Feature 선정 방법 (Python 기준)

Python Cookbook Data Structures and Algorithms Day 2 정리

Dictionary Problem:  You have two dictionaries and want to find out what they might have in common (same keys, same values, etc.).

Problem:  You have a list of dictionaries and you would like to sort the entries according to one or more of the dictionary values.

    Most_common() methods Problem:  You have… Continue reading Python Cookbook Data Structures and Algorithms Day 2 정리

Python Cookbook Data Structures and Algorithms Day 1 정리

Star Expression Problem: You need to unpack N elements from an iterable, but the iterable may be longer than N elements, causing a “too many values to unpack” exception.

Deque Problem:  You want to keep a limited history of the last few items seen during iteration or during some other kind of processing. ※Deque: … Continue reading Python Cookbook Data Structures and Algorithms Day 1 정리

[SQL] Case When과 COALESCE / NullIF 번갈아 써보기

하루에 하나씩 Codewar에서 SQL 문제를 풀고 있다. 그 중 필요한 부분은 기록으로 남긴다. 1) COALESCE / NullIF 사용시 NULLIF(exp1, exp2): exp1값과 exp2값이 동일하면 NULL을 그렇지 않으면 exp1을 반환 COALESCE(expr1,expr2,expr3,…): expr1이 NULL이 아니면 expr1값을, 그렇지 않으면 COALESCE(expr2,expr3,…)값을 반환

2) Case-When 구문

3) With를 통한 임시 테이블 생성

 

[Kaggle]인스타카트(Instacart) 데이터 분석해보기(2) – 트리맵(Treemap)

지난 번 글에 이어서 Insta Cart Exploratory Anlaysis를 위해 R로 Treemap을 실습해 보았다. 참고로 department, aisle 모두 Category 형 Variable이기 때문에 Treemap을 사용할 수 있다. tmp는 Deparment 별 Aisle 이름에 대한 디멘션(Dimension) 데이터 프레임이다.  Left Join한 까닭은 혹시 상품 중에 Department, Aisle 명이 누락된 경우를 대비해서이다.

tmp2는 Product 주문 내역을 Product 별로 Grouping 후에… Continue reading [Kaggle]인스타카트(Instacart) 데이터 분석해보기(2) – 트리맵(Treemap)