Attention은 가중평균을 통해서 문맥정보를 제공하는 방식이다.
이 글의 시작은 DeeprETA라는 논문에서부터였다. DeeprETA는 Uber에서 사용하는 시간예측 알고리즘으로, Post Processing에 최적화된 모델이다. 즉 Uber의 경우 배차를 하고 Routing을 하는 시점에서 기본적인 예상시간을 계산한다. 이후에 실제 상황을 감안해서 보정을 하는 과정을 거치는데 이 아키텍처 상에서 저자는 Feature간의 Interaction을 반영하기 위해 Linear Self Attention을 활용한다. 이 시점에서 나는 Linear Attention을