[토픽 모델링] LSA와 LDA의 관계 (+ LDA라는 이름의 유래)
Latent Dirichlet Allocation이라는 이름은 언뜻 들으면 무슨 뜻인지 이해하기가 어렵습니다. 토픽 모델링 기법 중 하나로 문헌-용어 행렬에서 문헌별 주제분포와 주제별 단어분포를 찾아주는 기술인데, 이름은 Latent Dirichlet Allocation이죠. Dirichlet는 이 기법이 디리클레 분포를 기반으로하기 때문에 붙은것이라고 유추가능하지만 Latent와 Allocation은 글쎄요? 궁금해서 이에 대해서 찾아보던 중, 사실 이 이름에는 토픽 모델링 기법의 변천사가 담겨있다는 것을 알게 되었습니다. 이 포스팅에서는 그 역사를 간략하게 소개하면서 이름의 뜻을 되짚어보도록 하겠습니다. 문헌-용어 행렬문헌 집합을 표현하는 가장 고전적이면서도 직관적인 방법은 문헌들에 어떤 용어들이 들..
그냥 공부
2017. 10. 20. 01:31