통계청 음식서비스 및 전자쿠폰 거래액 데이터 수집하기

올해 초 선물하기 서비스 및 음식서비스 시장 성장 추이를 확인하기 위해서 작성했던 코드.

통계청의 예측보다 빨리 성장하고 있지만, 빨리 성장하고 있다는 것은 돌려 말하면 속도가 느려질 일이 남아 있다는 것이기 때문에 추세추종의 원칙을 잘 인지하면서 Soft-Landing을 할 수 있도록 노력해야 겠다.

library(tidyverse)
library(httr)
library(rvest)
library(jsonlite)
library(data.table)

default_url <- 'http://kosis.kr/openapi/statisticsData.do'
before_apikey_url <- '?method=getList&apiKey='
after_apikey_url <- '&format=json&jsonVD=Y&userStatsId=sensui/101/DT_1KE10041/2/1/'
search_period_header <- '&prdSe=M&newEstPrdCnt=100'

e_coupon_market_url <- str_c(default_url,before_apikey_url,Sys.getenv('KOSIS_API_KEY'),after_apikey_url,'20200330144016_1',search_period_header)
food_service_market_url <- str_c(default_url,before_apikey_url,Sys.getenv('KOSIS_API_KEY'),after_apikey_url,'20200330144016_2',search_period_header)
 
데이터추출 
e_coupon_market_res <- GET(e_coupon_market_url) #명목
print(e_coupon_market_res)

food_service_market_res <- GET(food_service_market_url) #명목
print(food_service_market_res)

#데이터 변환
e_coupon_market_json <- e_coupon_market_res %>% content(as = 'text', encoding = 'UTF-8') %>% fromJSON() 
food_service_market_json <- food_service_market_res %>% content(as = 'text', encoding = 'UTF-8') %>% fromJSON()


e_coupon_market <- e_coupon_market_json %>% data.table() 
food_service_market <- food_service_market_json %>% data.table()


write.csv(e_coupon_market,'통계청 온라인쇼핑몰 상품 중 전자쿠폰 거래액 추이.csv',row.names = F)
write.csv(food_service_market,'통계청 온라인쇼핑몰 상품 중 음식서비스 거래액 추이.csv',row.names = F)

Read more

DataFrame은 Pandera로, 모델은 Pydantic으로 데이터를 검증한다.

DataFrame은 Pandera로, 모델은 Pydantic으로 데이터를 검증한다.

Pandera: 데이터프레임 검증에 최적화된 도구 주요 장점 * Pandas와 통합: Pandas 데이터프레임에 대해 스키마 기반 검증을 수행합니다. * 유연한 검증 조건: 열 데이터 타입, 값 범위, Null 여부 등 다양한 검증 조건을 정의할 수 있습니다. * 명확한 오류 메시지: 스키마 불일치에 대한 명확한 오류 메시지를 제공합니다. 단점 * 대용량 데이터 검증에서는 속도가 느릴 수

Tobit Regression은 Censored Data에 적합한 Regression이다.

Tobit Regression은 Censored Data에 적합한 Regression이다.

Tobit Regression * Tobit 회귀(Tobit Regression)는 종속 변수가 특정 값에서 절단(Censored)된 상황에서 데이터를 분석하기 위해 사용되는 통계 기법입니다. * James Tobin이 처음 제안한 이 모델은 경제학과 사회과학 분야에서 자주 사용되며, 일반 선형 회귀로는 설명할 수 없는 상황에서 효과적으로 적용할 수 있습니다. Tobit Regression 수식 1. 관측된 종속 변수