Data

Time Series

TimesNet - CNN Based Time Series Forecasting (Multi periodicity 활용)

Introduction * a CNN-based architecture to achieve state-of-the-art results across different tasks, Motivation * Mutli-periodicity * 예) 밤보다 낮이 덥고, 겨울보다 여름이 더 덥다. 이렇게 여러 특징이 Overlap되기도 하고 상호작용하기도 한다. → 기간만을 가지고 분리하기가 어려울 수 있다. * 저자는 2D Space로 TIme Series의 Reshape을 제안 → intraperiod-variation and interperiod-variation.를 각각 모델링 Architecture * TimesNet은 여러

By Bongho, Lee

Data

수식 없이 등분산에 대한 내용을 전달해보기

빅데이터라는 키워드를 시작으로 최근에는 AI까지 회사 전반에 걸쳐 데이터를 적용해서 업무를 하기 위해서 노력하는 분위기가 형성되어 있다. 정말 이해가 되지 않는 주관적이고 정성적인 이유를 기반으로 업무하는 상황에 비해서는 확실히 좋은 세상임에는 틀림없다. 하지만 하나만 아는 사람이 정말로 무섭다고, 숫자만 쓰면 모두 데이터 기반의 효율적인 의사결정이라고 간주하면서 다양한 수식을 전제조건에 대한

By Bongho, Lee

Book

[책]AI 관련 지금 벌어지고 있는 랜드스케이프를 보고 싶다면, AI 전쟁

대화내용을 옮긴 책의 특성상, 만연체가 곳곳에 보인 덕분에 오히려 핵심만 파악하고 빠르게 넘길 수 있었던 책으로 주말을 빌려 빠르게 훑어보았다. AI는 확실히 사회 전반에 걸쳐 큰 변화를 가지고 오고 있다. 그리고 그 변화만큼이나 사회 내부에서 변화해야할 것도, 그리고 연구하는 것도 정말 많다. Weekly Arxiv로 듣던 내용을 넘어서 상당히 많은 내용을

By Bongho, Lee

Data

[데이터조직]데이터과학자에게도 엔지니어링은 필요하다.

서론 최근에 데이터과학자와 백앤드엔지니어까지 포함해서 데이터프로덕트 팀을 구성해서 일을 해보니 드는 생각이다. 데이터과학자 중에서 최근에 일하기 시작한 분들은 컴퓨터공학도 전공인 분도 있지만 그렇지 않은 분들도 꽤 많다. 그래서인지 종종 엔지니어링 측면을 잘 모르는 분들이 있는데, 개인적으로 전공이 컴퓨터공학이어서 그럴 수도 있지만, 엔지니어링은 데이터과학자에게 점차 중요해질 것이라고 생각한다. 데이터가 더 중요하다.

By Bongho, Lee

Deep Learning

Custom Loss Function in Keras

Summary * Business Impact에 기반해서 Loss Function을 수정해야할 필요가 있다. * 예를 들어 비대칭 구조(예: 지수분포)에서는 Loss값에 Weight를 줘야하는 상황이 그렇다. * Keras에서는 Model에 필요한 제반 환경을 Complie이라는 단계에서 설정하는데 이 때 Loss Function을 Keras 라이브러리에서 불러올 수도 있지만 앞서 언급한 바와 같이 Custom Loss Function을 설정할 수 있다. Example * 여기서

By Bongho, Lee

Business

[리뷰] Real-Time Delivery Time Forecasting and Promising in Online Retailing

Summary * Delivery Time Prediction은 Regression 문제이기도 하지만 Result가 분단위 정도로 나눠진다고 하면 Classification 문제로 간주할 수도 있다. * 비즈니스 관련 Cost Sensitive Rule을 고려하기 위해서 Regression Tree를 사용하되, 성능을 끌어올리기 위해 Random Forest를 고려했고, 예측값이 정규분포가 아닐 가능성을 고려하여 Quantile로 나눠서 예측, 최종 모델은 Quantile Random Forest (for Regression)을 하였다.

By Bongho, Lee

Data

First Step Analysis in Transition Matrix

Summary * First Step Analysis란 Markov Chain을 해결하기 위한 간단한 방법 * Markov Property를  이용해서 변수들의 특성을 빠르게 파악하는 방법 Prerequisite * Absorbtion, Transition  개념 이해 필요함. * Absorbtion  Status에 들어가게 되면 그 이후로는 이제 Status가 변하지 않는다. Example * 다음과 같은 전이행렬이 있따고 가정할 때 Absorbtion Status에 도달하기까지의 시간과 확률, 그리고 평균 기대시간을 구한다고

By Bongho, Lee

Data

언제 데이터 과학자를 채용하고 조직을 구성해야할까?

정답은 비즈니스 목적을 달성하기 위해서 기존의 방안에서 답이 없다고 판단할 때이다. 보통 조직들은 팀을 신설하고 데이터과학자나 엔지니어를 채용한다. 그리고 바로 실적이 나오길 기대한다.  이 때 기다려줄 수 있는 관점은 철저히 비즈니스 관점에서 사업계획에 예정된 일자일 경우가 많다. 다시 말해서 기타 비즈니스 요인은 고려되지 않은 경우가 많다. 데이터 조직이 생기고 프로세스가

By Bongho, Lee

Data

데이터 과학자가 AI를 비즈니스에 잘 도입하기 위한 팁 6 가지

created: 2023-05-11 19:54 modified: 2023-05-11 19:54 title: Write Here tags: (default: []) * tag1 * tag2 featured: false published: false 복잡한 모델 또는 기술이 능사는 아니다. 비즈니스는 그런걸 신경쓰지 않는다. 비즈니스 부서들은 모델의 디테일따위 관심이 없다. 당신이 Naive Bayes를 쓰던 Random Forest를 쓰던 비즈니스 목표를 달성만 해주면 된다. 우선 빠른게 좋다.

By Bongho, Lee

Data

Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention

Summary Motivation * Transformer는 성능은 매우 좋으나 내부 구조의 복잡함으로 인해서 계산비용이 기하급수적으로 증가하는 문제가 있다. 이 부분에 대한 개선은 Dot Product를 이용해서 지속해서 개선해왔으나, 여전히 개선이 필요한 분야이다. * 연구분야는 1)크게 메모리사용량을 줄이기 위한 방안을 찾는 부분과 2)Sequence Length를 늘려서 맥락을 최대한 이해할 수 있게 하려는 부분인데 계산량 자체를

By Bongho, Lee

Data

[요약]AI기반 생성 컨텐츠에서 고려해야할 세가지 리스크

서론 * AI 생성 콘텐츠(AIGC)는 이미지, 텍스트, 오디오, 비디오 등의 콘텐츠가 포함된 몇 년간의 중요한 관심사 . * AIGC는 양날의 검이 되어 최근 책임 있는 사용과 관련하여 많은 비판을 받고 있는 상황이다. 프라이버시 * 개인정보 노출. 대규모 기반 모델은 프라이버시 위험에 취약 * 이러한 모델을 기반으로 구축된 AIGC 모델도 개인정보 노출의 위험성이 있음

By Bongho, Lee