Kaggle에 인스타카트(Instacart)의 개인화 서비스 관련 Competition이 등록되었다. 대략 훑어보니 e-Commerce 특성상 특별한 배경지식 없이 접근이 가능하고 데이터도 잘 정제되어 있었다. 그래서 이 기회에 R에 익숙해질 겸, 한 유저가 진행한 Exploratory Analytics를 참고해서 연습해보았다.

Data Loading

Data Set Summary

총 주문 수는 342,083건으로 1인당 16.6건씩 주문을 하였고 총 39123종의 제품이 35.4번씩 주문 되었다.

 

Data Recoding

데이터 타입 중 일부 Character Type에 대해서 Factor 형으로 변환하였다.

 

사람들은 언제 Instacart를 이용하는걸까?

주로 일요일과 월요일 아침 8시-18시에 가장 많이 이용하고 주말에 가장 많이 이용하는 듯하다. DoW(Day of Week)의 경우 추가정보가 없어서 0이 일요일인지 월요일인지 모르겠지만 일요일이라고 가정했다.

사람들은 Instacart를 몇 번이나 이용했을까?

대략 1주일 간격으로 사람들은 Instacart를 가장 많이 재이용하였고 서비스 재이용 횟수는 1~3회 정도가 가장 많았다.

 

가장 많이 구매한 상품은?

Banana, Bag of Organic Bananas, Organic Strawberries 가 가장 인기 상품이다.

어떤 아이템들이 주로 재구매가 이뤄질까?

59%의 상품들은 재구매가 발생하였고 2% Lactose Free Milk, Organic Low Fat Milk, 100% Florida Orange Juice 가 재구매 상품 중에 Top 3를 차지하였다.

장바구니에 제일 먼저 담긴 상품은?

White Multifold Towels, Sparkling Water, Bottles, Purified Alkalkine Water with Minerals pH10 순으로 장바구니에 먼저 담겼다.

요약 정리

지금까지 내용을 대략 정리해보면 다음과 같다.

1. 대다수의 고객들은 일요일과 월요일에 걸쳐 아침 8시-18시 사이에 가장 많이 Instacart를 사용한다.
2. 고개들은 Instacart를 주로 1주일 간격으로 재이용을 하였고 대부분의 고객들은 3회 이상 서비스를 재방문하였다.
3.Banana, Bag of Organic Bananas, Organic Strawberries 가 가장 인기 상품이다.
4. 59%의 상품들은 재구매가 발생하였고 재구매 상품 중 Top 3는 2% Lactose Free Milk, Organic Low Fat Milk, 100% Florida Orange Juice 였다.
5. 고객은 White Multifold Towels, Sparkling Water, Bottles, Purified Alkalkine Water with Minerals pH10 를 주로 가장 먼저 장바구니에 담았다..

대략 사용자의 구매 패턴에 중점을 둬서 Exploratory Research를 진행했다. 다음 번에는 속성간 관계 분석을 진행하면서 두드러지는 특정 구매패턴이 존재하는지 확인해봐야겠다.