Data
BERTopic 주요 내용 요약 및 정리
어떤 모델인가? * Topic Modeling 기법 중 하나이다. * BERT 기반 Embedding + Class-based TF-IDF를 사용한 것이 아이디어의 핵심이다. 구조 * 크게 세 단계로 나눠서 볼 수 있다. * 첫 번째 BERT를 이용해서 각 Document에 대해서 Embedding을 한다. * 두 번째 UMAP을 이용해서 각 Document Vector의 차원을 축소한다. * 세 번째 HDBSCAN을 이용해서 클러스터링을 한다. 이 때