'토픽 모델링' 태그의 글 목록

[토픽 모델링] Generalized DMR 토픽 모델

Dirichlet Multinomial Regression(DMR)이라는 토픽 모델이 있습니다. 예전 포스팅에서 간단하게 다뤘던 적이 있는데요, 간단하게 정리해보자면, 단순 LDA 모델의 경우 문헌별 주제 분포만을 살펴볼 수 있는 반면, DMR은 메타데이터별 주제 분포를 추정할 수 있는 강점이 있습니다. 여기서 메타데이터는 문헌이 가지는 실제 데이터를 제외한 부가적인 변수들을 가리킨다고 생각하시면 쉽습니다. 예를 들어 저자명이나 저널명, 작성 연도 같은 데이터가 있겠습니다. 즉, DMR을 이용하면 작성자별 주제분포나 작성 연도별 주제 분포 등을 계산하는게 가능해진다는 것이지요. 단순하게 문헌별 주제분포를 추정하는것보다 훨씬 유용하게 쓰일 수 있을 것이라고 짐작이 가지요?그런데 DMR 모델에는 치명적인 약..

그냥 공부 2020. 6. 6. 16:31

[토픽 모델링] Dynamic Topic Model

LDA 토픽 모델링이 개발된 뒤 처음 적용된 분야는 학술 문헌 분석과 관련된 곳이었습니다. 수없이 쏟아지는 논문들에서 중요한 주제들을 찾아내서 분류하는 작업에 LDA가 널리 쓰였지요. LDA가 학술 문헌 분석에 성공적으로 쓰이자, 트렌드 분석에도 토픽모델링을 사용하려는 시도가 등장하기 시작했습니다. 대표적인 것이 Topic over Time과 Dynamic Topic Model인데, 본 포스팅에서는 Dynamic Topic Model에 대해서 살펴보도록 하겠습니다.Blei, D. M., & Lafferty, J. D. (2006, June). Dynamic topic models. In Proceedings of the 23rd international conference on Machine learni..

그냥 공부 2020. 5. 10. 00:37

[토픽 모델링] 토픽에 자동으로 이름 붙이기

토픽 모델링을 실시하고 나면 주제별로 단어 분포가 계산되어 나옵니다. 그리고 각 문헌들에 어떤 주제가 얼만큼씩 분포하는지도 알아낼 수 있습니다. 이 때문에 대량의 문헌이 어떤 내용을 다루고 있는지 파악하기 위해서 자주 사용되지요. 근데 문제는 각 주제가 주제 번호 #1, #2 등으로 구분될 뿐, 실제 주제가 다루는 내용을 알기 위해서는 주제별 단어 분포를 확인해야 합니다. 이러면 불편하기 때문에 사람이 직접 주제별 단어 분포를 보고 주제에 이름을 붙여주는 작업을 진행하죠.그래서 주제 개수가 너무 많으면, 주제에 일일히 이름을 붙여주기 고되기 때문에 보통 토픽 모델링의 주제 개수는 10~100 개 정도로 한정합니다. 사실 문헌 집합이 더 크면 주제 개수를 더 키워야하는데, 그러면 현실적으로 그 많은 주제들..

그냥 공부 2020. 3. 19. 21:45

[Python] tomotopy로 문헌별 토픽 비중 계산하기

이전 글(https://bab2min.tistory.com/633)에서 tomotopy로 간단하게 토픽 모델링을 실시하는 방법에 대해 소개했었는데요, 많은 분들께서 문헌별 주제 비중 계산하는데에 어려움을 겪고 계신듯하여, 문헌별 토픽 비중을 계산하는 방법을 이번 글에서 별도로 소개하도록 하겠습니다. 먼저 다음과 같이 LDA 토픽 모델을 학습시키도록 하겠습니다.import tomotopy as tp # 먼저 모듈을 불러와야겠죠 model = tp.LDAModel(k=20, alpha=0.1, eta=0.01, min_cf=5) # LDAModel을 생성합니다. # 토픽의 개수(k)는 20개, alpha 파라미터는 0.1, eta 파라미터는 0.01 # 전체 말뭉치에 5회 미만 등장한 단어들은 제거할 겁니다..

프로그래밍/NLP 2019. 12. 1. 00:26

[토픽 모델링, tomotopy] sLDA를 이용하여 스팸 메일 분류하기

sLDA(supervised LDA)라는 토픽 모델링 기법에 대해서는 아주 옛날에 제 블로그 포스팅에서 짧게 소개한 적이 있습니다. LDA가 문헌 집합 내에서 주제들을 찾아서 각 문헌에는 어떤 주제가 얼만큼씩 들어있는지는 찾아내는 작업이라면, sLDA에서는 문헌에서 각 주제가 얼만큼 있는지를 찾아낸 다음, 그 주제 분포를 바탕으로 문헌의 특성(response variable)을 예측하는 작업이라고 할 수 있습니다. 통계로 비유로 들자면 LDA는 문헌들 안에 있는 내용을 잘 정리해서 보여주는 기술 통계와 같은 것이고, sLDA는 LDA로 얻은 정보를 바탕으로 새로운 사실을 예측하는 추리 통계와 같은 것입니다. 수학적으로 풀어헤쳐보면, sLDA는 결국 LDA에 회귀 모형(regression)을 덧붙인 것과 ..

그냥 공부 2019. 8. 21. 02:40

[토픽모델링] 상관 토픽 모델(Correlated Topic Model)

오랜만의 토픽 모델링 공부입니다. 오늘 포스팅할 토픽 모델은 Correlated Topic Model(CTM)입니다. 이 모델의 특징은 이름에서 알 수 있듯이 주제 간의 상관 관계를 고려할 수 있다는 것입니다. 이 모델은 LDA 토픽 모델을 개발하여 토픽 모델링이라는 기법을 태동시킨 장본인인 D. Blei가 2006년에 개발한 LDA의 업그레이드된 모형이라고 할 수 있습니다. LDA는 CTM과는 다르게 주제 간의 상관 관계를 모형화하는 능력이 없습니다. 즉 각각의 주제가 항상 독립적이라고 가정을 했는데, CTM은 이를 개선하여 특정 주제가 등장하면 이와 연관된 다른 주제가 함께 등장할 가능성이 높다는 사실을 활용한다는게 특징입니다. 본 포스팅은 다음 논문을 참조하여 작성하였습니다. Blei, D., & ..

그냥 공부 2019. 8. 8. 01:32

[토픽 모델링] 대량의 문헌을 주제에 따라 클러스터링해보기

대량의 문헌이 있는데 그 문헌 안에 어떤 내용이 들어 있는지는 잘 모릅니다. 이 문헌들을 좀더 편하게 찾아볼 수 있게 하려면 주제별로 묶어서 분류하는게 최고입니다. 그런데 문헌 수가 너무 많기 때문에, 문헌 전체를 읽어보면서 얘네 안에 어떤 주제가 있는지 일일히 확인하는 건 어렵고, 얘네들을 일일히 분류하는 건 더 어렵습니다. 이런 경우 어떻게 하는게 좋을까요? 이 문제는 라틴어 고문헌을 OCR하여 아카이브를 구축하면서 제가 겪은 상황입니다. 수십 만건의 문헌을 확보했고 이를 차근차근 OCR하면서 텍스트화시키고 있는데, 당췌 이걸 일일히 읽어보면서 이쁘게 분류할 엄두가 나질 않더라구요. 분류를 하고는 싶은데 분류 체계가 마땅히 없거나 분류기를 학습할 만한 학습 데이터가 없는 경우 클러스터링이 유용합니다...

프로그래밍/NLP 2019. 7. 10. 01:24

[Python] tomotopy로 쉽게 토픽 모델링 실시하기

저번 글에 소개했던 것처럼, 토픽 모델링 툴인 tomoto의 Python 패키지 버전을 며칠 전에 공개했었습니다. 이번 포스팅에서는 Python에서 이를 이용해서 쉽게 토픽 모델링을 하는 예제 코드를 공유하고자 합니다.Step 1. tomotopy 패키지 설치하기명령줄 혹은 Terminal 에서 다음과 같이 입력하여 tomotopy를 설치합니다. (만약 파이썬이 설치가 되지 않은 경우라면 먼저 파이썬을 설치해야겠죠. 3.5 버전 이상을 설치하는걸 추천드립니다)$ pip install --upgrade tomotopyStep 2. 토픽 모델링 코드를 작성하기의외로 간단합니다. 바로 보도록 하시죠. import tomotopy as tp # 먼저 모듈을 불러와야겠죠 model = tp.LDAModel(k=2..

프로그래밍/NLP 2019. 5. 22. 17:06

나의 큰 O는 log x야

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

토픽 모델링

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

댓글

태그

방문자

페이징

티스토리툴바