Python용 토픽 모델링 패키지

Python용 토픽 모델링 패키지 - tomotopy 개발

프로그래밍/NLP

by ∫2tdt=t²+c 2019. 5. 19. 20:32

최근 몇 년 여 간 토픽 모델링이라는 자연언어처리 기법을 접하고 이를 통해서 다양한 실험 및 논문 작업을 진행했었는데요, 연구 목적으로 편하게 자주 사용하는 Python에는 토픽 모델링을 제공하는 패키지가 gensim을 제외하고는 크게 많지 않더라구요. Java 기반 라이브러리(Mallet 등)를 종종 이용해오다가, Java로 코딩하기가 너무 귀찮아서 Python에는 왜 이런 라이브러리가 없을까 한탄도 자주 했었습니다.

공부할 겸 깁스 샘플링 기반의 토픽 모델링 코드를 개인적으로 c++로 개발했던 적이 있습니다. 최근에 Python C API를 공부하며 겸사겸사 그 동안 개발해뒀던 토픽 모델링 툴을 Python 패키지화시키면 파이썬 유저들도 편하게 토픽 모델링을 할 수 있겠다 싶어서 용기를 내어 토픽 모델링 툴을 공개하게 되었습니다.

사실, 예전에 c#용 GUI로 개발하여 공개한 바가 있던 Tomoto GUI(https://bab2min.tistory.com/602)의 업그레이드 버전이라고 얘기할 수 있습니다. Topic Modeling Toolkit에서 따와 Tomoto이구요, 이번에는 python 패키지이기 때문에 tomotopy(토마토파이)가 되어버렸네요. github 주소는 다음과 같습니다.

https://github.com/bab2min/tomotopy

현재는 총 6가지의 토픽 모델(LDA, DMR, HDP, MG-LDA, PA, H-PA)을 제공하고 있습니다. 물론 각각의 모델을 제공하는 파이썬 패키지를 찾고자하면 찾을 수 있겠지만, 이를 한 데 묶어서 편리하게 이용할 수 있도록 제공한다는 점이 tomotopy의 기여가 아닐까 싶네요

성능

고성능에 목숨을 걸고(...) c++기반으로 개발되었기 때문에 속도는 굉장히 빠른 편입니다. 멀티코어를 지원하구요, SSE, AVX, AVX2와 같은 향상된 SIMD 명령어들 또한 지원합니다. 따라서 최신 x86-64계열의 CPU에서 빠른 속도로 실행이 가능합니다. 성능에 대해 논하자면, 유사하게 LDA 모델을 제공하는 gensim과 비교를 피할 수가 없겠는데요 결과부터 보여드리면 다음과 같습니다.

gensim은 Variational Bayesian 기법을 사용하는 반면 tomotopy는 Collapsed Gibbs Sampling을 사용하기 때문에 둘을 1대1로 비교하기는 어렵습니다. 위의 결과는 영어 위키피디아 문서 중 임의의 1000개를 추출하여(총 1,506,966개 단어, 약 10MB) 구성된 코퍼스를 대상으로 실험을 진행한 것입니다. gensim의 경우 총 10회 iteration을 실시하였고, tomotopy는 200회 iteration을 실시했습니다. VB의 경우 연산이 조금 오래걸리지만 금방 수렴한다는 특징이 있고, CGS의 경우 연산은 빠르지만 수렴이 느리기 때문에 iteration을 많이 해야한다는 특징이 있습니다.

tomotopy가 20배 더 많이 반복을 했지만, 속도면에서는 gensim보다 5~10배 가까이 빠른 것을 볼 수 있습니다. 혹시 tomotopy가 속도가 빠른대신 질 낮은 결과를 만들어내는 것일수도 있으니, 토픽 군집 결과에서 큰 차이가 있는지 확인해봅시다.

토픽 개수를 20으로 설정했을때의 결과입니다.

tomotopy가 생성한 토픽별 상위 6개 단어
#1	use, acid, cell, form, also, effect
#2	use, number, one, set, comput, function
#3	state, use, may, court, law, person
#4	state, american, nation, parti, new, elect
#5	film, music, play, song, anim, album
#6	art, work, design, de, build, artist
#7	american, player, english, politician, footbal, author
#8	appl, use, comput, system, softwar, compani
#9	day, unit, de, state, german, dutch
#10	team, game, first, club, leagu, play
#11	church, roman, god, greek, centuri, bc
#12	atom, use, star, electron, metal, element
#13	alexand, king, ii, emperor, son, iii
#14	languag, arab, use, word, english, form
#15	speci, island, plant, famili, order, use
#16	work, univers, world, book, human, theori
#17	citi, area, region, popul, south, world
#18	forc, war, armi, militari, jew, countri
#19	year, first, would, later, time, death
#20	apollo, use, aircraft, flight, mission, first

gensim이 생성한 토픽별 상위 6개 단어
#1	use, acid, may, also, azerbaijan, cell
#2	use, system, comput, one, also, time
#3	state, citi, day, nation, year, area
#4	state, lincoln, american, war, union, bell
#5	anim, game, anal, atari, area, sex
#6	art, use, work, also, includ, first
#7	american, player, english, politician, footbal, author
#8	new, american, team, season, leagu, year
#9	appl, ii, martin, aston, magnitud, star
#10	bc, assyrian, use, speer, also, abort
#11	use, arsen, also, audi, one, first
#12	algebra, use, set, ture, number, tank
#13	appl, state, use, also, includ, product
#14	use, languag, word, arab, also, english
#15	god, work, one, also, greek, name
#16	first, one, also, time, work, film
#17	church, alexand, arab, also, anglican, use
#18	british, american, new, war, armi, alfr
#19	airlin, vote, candid, approv, footbal, air
#20	apollo, mission, lunar, first, crew, land

자웅을 겨루는 결과가 나왔네요. 개인적으로는 iteration을 더 많이 돌린 tomotopy가 조금더 사람이 이해하기 쉬운 주제를 생성한 것 같습니다. 빠르고 해석이 용이한 결과를 낸다는 점에서 충분히 쓸만한 녀석이라고 말할 수 있겠습니다.

설치

Python3.5 이상에서는 다음과 같이 pip를 이용해서 쉽게 설치할 수 있습니다. 만약 리눅스 환경이라면 c++14 코드 컴파일을 위해서 gcc 5 이상의 버전이 필요합니다.

pip install tomotopy

사용법은 매우 간단합니다.

import tomotopy as tp mdl = tp.LDAModel(k=20) for line in open('sample.txt'): mdl.add_doc(line.strip().split()) for i in range(100): mdl.train() print('Iteration: {}\tLog-likelihood: {}'.format(i, mdl.ll_per_word)) for k in range(mdl.k): print('Top 10 words of topic #{}'.format(k)) print(mdl.get_topic_words(k, top_n=10))

토픽 모델에 따라서 파라미터가 조금씩 달라지는데, 이에 대해서는 다음 API문서를 확인해주시면 되겠습니다.

https://bab2min.github.io/tomotopy/

저작자표시 비영리 동일조건

'프로그래밍 > NLP' 카테고리의 다른 글

Chrono-gram을 이용해 라틴어 고문헌 연대 추정하기 (3)	2019.09.16
[토픽 모델링] 대량의 문헌을 주제에 따라 클러스터링해보기 (3)	2019.07.10
[Python] tomotopy로 쉽게 토픽 모델링 실시하기 (59)	2019.05.22
[Kiwi] 지능형 한국어 형태소 분석기 0.6버전 업데이트 (1)	2018.12.09
[Tensorflow] 문자 인식용 신경망 Python3 코드 (2)	2018.11.14
AdaGram : 동음이의어를 구분하는 Word2Vec (1)	2018.09.23

글쓴이 ∫2tdt=t²+c

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

방문자

오늘

어제

전체

나의 큰 O는 log x야

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

성능

설치

'프로그래밍 > NLP' 카테고리의 다른 글

관련글 더보기

댓글 영역

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

댓글

태그

방문자

티스토리툴바