Close

[Kaggle]인스타카트(Instacart) 데이터 분석해보기(2) – 트리맵(Treemap)

지난 번 글에 이어서 Insta Cart Exploratory Anlaysis를 위해 R로 Treemap을 실습해 보았다.

참고로 department, aisle 모두 Category 형 Variable이기 때문에 Treemap을 사용할 수 있다.

tmp는 Deparment 별 Aisle 이름에 대한 디멘션(Dimension) 데이터 프레임이다.  Left Join한 까닭은 혹시 상품 중에 Department, Aisle 명이 누락된 경우를 대비해서이다.

tmp2는 Product 주문 내역을 Product 별로 Grouping 후에 다시 이걸 Department 별 Aisle 별로 Gropuing한 것이다.

중간의 left join은 모두 Dimesion으로부터 Name 속성을 가지고 오기 위해 진행하였다.

Treemap을 그리는 함수이다. 그 외 변수가 궁금하면 여기를 클릭하면 된다.

아래 Function은 Deparment 별 Aisle의 분포를 Treemap으로 그린 것이다. 보면 vsize를 1로 제한해서 모든 Block이 동일한 Size를 갖추고 있다. 그리고 department 별로 동일한 Color를 사용하고 있다.

 

이 Function은 Deparment의 Aisle 별로 팔고 있는 Product의 수(Unique)를 Treemap으로 나타낸 것이다. 상품 수를 vSize로 설정하였다. 여기서 n은 Department 별, Aisle 별 상품 수이기 때문에 Unique하다. sumcount를 썼으면 주문된 상품 수를 기준으로 계산되었을 것이다.

sumcount를 vSize에 넣어서 deparment 별 aisle 별로 어떤 상품이 많이 주문되었는지 보았다. 확실히 fresh vegatables과 Fresh fruit의 비율이 압도적이다.