22 4월 2022 1 min read Data

LSA(Latent Semantic Analysis)

목적

LSA는 특이값 분해를 이용해서 문서 내에, 잠재되어 있는 의미(예: 토픽 등)를 파악한다.

다른 문서의 유사도, 다른 단어의 유사도, 단어(쿼리)로부터 문서의 유사도를 구하는 것들이 가능해진다.
특이값 분해는 \( A \)가 \(m \times n \) 행렬일 때 \( A=UΣV^\text{T} \) 과 같이 3개의 행렬의 곱으로 분해하는 것이다.
이 때 Topic의 갯수에 따라서, Full SVD 대신 Truncated SVD를 사용하게 된다. 이 때 원 행렬 \(A\)로 복원은 불가하게 된다.
우선 \( A \)는 Topic에 대한 Word의 Matrix롤 각 단어의 해당 Topic에 대한 기여도라고 볼 수 있다
그리고 \(V^\text{T} \)(는 Topic을 위한 Document의 Matrix으로 각 Topic에 대한 Document의 기여도이다.
마지막으로 \( Σ \)는 각각 U,V의 Orthogonal Vector의 정보량을 말한다. 따라서 Topic의 Strength를 보여준다.
LSA를 통해서 하나의 문서에서 특정 토픽과 해당 토픽에 해당되는 단어의 특이값(대각행렬 \(Σ\)의 값)을 파악할 수 있다.