[토픽 모델링] 깁스 샘플링의 병렬화 & GPU 위에서 돌리기
깁스 샘플링(Gibbs Sampling, 기브스 표집)을 이용한 LDA 모델 추정 과정은 예전 포스팅에서 소개한 바가 있습니다. 다시 한번 간략하게 짚어보자면, 깁스 샘플링은 복잡한 확률분포 에서 표본을 추출하기가 어려우므로 그 대신 와 같이 나머지 변수를 모두 고정한 상태에서 각각의 변수의 표본을 추출하고 이를 합쳐서 전체 확률 분포의 표본을 근사하자는 아이디어입니다. 반복 횟수(iteration)이 늘어날 수록 위 근사는 원래 확률 분포를 따라간다고 이미 알려져 있기에 마음 놓고 이렇게 사용하는 것이죠. LDA에서 단어의 주제 분포를 계산하는 경우, 모든 문헌의 단어 개수가 N개이고, 주제 개수가 K개라고 하면, 각각의 단어가 주제에 배정될 수 있는 모든 조합의 개수는 KN개가 됩니다. 어마어마하게 ..
프로그래밍/NLP
2018. 2. 20. 12:40