BERTopic 주요 내용 요약 및 정리
어떤 모델인가?
* Topic Modeling 기법 중 하나이다.
* BERT 기반 Embedding + Class-based TF-IDF를 사용한 것이 아이디어의 핵심이다.
구조
* 크게 세 단계로 나눠서 볼 수 있다.
* 첫 번째 BERT를 이용해서 각 Document에 대해서 Embedding을 한다.
* 두 번째 UMAP을 이용해서 각 Document Vector의 차원을 축소한다.
* 세 번째 HDBSCAN을 이용해서 클러스터링을 한다. 이 때