[Python] tomotopy로 문헌별 토픽 비중 계산하기

프로그래밍/NLP

by ∫2tdt=t²+c 2019. 12. 1. 00:26

이전 글(https://bab2min.tistory.com/633)에서 tomotopy로 간단하게 토픽 모델링을 실시하는 방법에 대해 소개했었는데요, 많은 분들께서 문헌별 주제 비중 계산하는데에 어려움을 겪고 계신듯하여, 문헌별 토픽 비중을 계산하는 방법을 이번 글에서 별도로 소개하도록 하겠습니다.

먼저 다음과 같이 LDA 토픽 모델을 학습시키도록 하겠습니다.

import tomotopy as tp # 먼저 모듈을 불러와야겠죠 model = tp.LDAModel(k=20, alpha=0.1, eta=0.01, min_cf=5) # LDAModel을 생성합니다. # 토픽의 개수(k)는 20개, alpha 파라미터는 0.1, eta 파라미터는 0.01 # 전체 말뭉치에 5회 미만 등장한 단어들은 제거할 겁니다. # 다음 구문은 enwiki3000.txt 파일에서 한 줄씩 읽어와서 model에 추가합니다. for i, line in enumerate(open('enwiki3000.txt', encoding='utf-8')): model.add_doc(line.strip().split()) # 공백 기준으로 단어를 나누어 model에 추가합니다. if i % 10 == 0: print('Document #{} has been loaded'.format(i)) # model의 num_words나 num_vocabs 등은 train을 시작해야 확정됩니다. # 따라서 이 값을 확인하기 위해서 train(0)을 하여 실제 train은 하지 않고 # 학습 준비만 시킵니다. # num_words, num_vocabs에 관심 없다면 이부분은 생략해도 됩니다. model.train(0) print('Total docs:', len(model.docs)) # 전체 문헌의 개수가 출력될 겁니다. print('Total words:', model.num_words) print('Vocab size:', model.num_vocabs) # 다음 구문은 train을 총 200회 반복하면서, # 10회 마다로 로그 가능도 값을 출력해줍니다. # 혹은 단순히 model.train(200)으로 200회 반복도 가능합니다. for i in range(20): print('Iteration {}\tLL per word: {}'.format(i, model.ll_per_word)) model.train(10)

위 코드를 수행하면 다음과 같이 화면에 출력될 겁니다. 총 3000개의 문헌이 입력되었고, 전체 단어의 개수는 약 400만개네요.

Num docs: 3000

Vocab size: 37020

Num words: 4026898

각각의 입력된 문헌은 add_doc을 수행한 순서대로 차례로 0번부터 2999번까지의 번호를 부여받습니다. 이 번호를 이용해 우리가 원하는 임의의 문서에 접근할 수 있습니다. 한번 첫번째 문헌의 내용을 확인해보도록 합시다.

print(model.docs[0]) # tomotopy 0.4.2버전부터는다음과 같이 읽기 편한형태로 문헌 내용이 출력됩니다. # <tomotopy.Document with words="anthophyt thought clade compris plant bear flower-lik structur . # group contain angiosperm extant flower plant rose grass well gnetal extinct bennettital . # detail morpholog molecular studi shown group actual monophylet propos floral homolog gnetophyt angiosperm evolv parallel . # recent studi use word anthophyt describ group includ angiosperm varieti fossil glossopterid pentoxylon bennettital caytonia gnetal .">

그럼 이 문헌을 구성하는 토픽의 비율은 어떻게 될까요? 이는 get_topics() 메소드를 통해 확인할 수 있습니다. 다음과 같이 실행해봅시다.

print(model.docs[0].get_topics(top_n=10)) # 다음과 같이 출력될 겁니다. # [(18, 0.6110410094261169), # (7, 0.29564350843429565), # (1, 0.05390259250998497), # (11, 0.004639213439077139), # (16, 0.003808618290349841), # (12, 0.0034405391197651625), # (9, 0.0029519253876060247), # (14, 0.0025582301896065474), # (10, 0.0025553912855684757), # (4, 0.002334248274564743)]

get_topics() 메소드는 top_n이라는 인자를 받습니다. 이는 상위 몇개의 결과를 출력할지 결정합니다. 생략시 자동으로 상위 10개의 결과를 보여줍니다. 결과는 (토픽 번호, 비중)의 리스트로 리턴됩니다. 확인해보니 18번 토픽이 약 61%로 대부분의 내용을 차지하고 있고, 그 다음으로 7번 토픽이 29% 정도를 차지하고 있네요. 나머지 토픽들은 거의 차지하는 비중이 없습니다. 그럼 이 토픽이 0번 문헌의 주요 토픽이라고 볼 수 있겠습니다.

근데 18번 토픽과 7번 토픽이 도대체 뭘까요? 이는 model의 get_topic_words()라는 메소드를 통해서 확인할 수 있습니다. 다음과 같이 실행해봅시다.

print(model.get_topic_words(18, top_n=10)) # 위 코드는 다음과 같은 출력 결과를 냅니다. # [('cell', 0.010014769621193409), # ('may', 0.007485862355679274), # ('effect', 0.006072998512536287), # ('includ', 0.005580277182161808), # ('diseas', 0.005099428817629814), # ('studi', 0.004856036510318518), # ('caus', 0.004677944350987673), # ('blood', 0.004654198419302702), # ('protein', 0.004054621793329716), # ('treatment', 0.003947766963392496)] print(model.get_topic_words(7, top_n=10)) # [('island', 0.014902426861226559), # ('speci', 0.006909737829118967), # ('river', 0.006327963434159756), # ('sea', 0.0061444807797670364), # ('includ', 0.005240492057055235), # ('water', 0.005150988232344389), # ('region', 0.004963030572980642), # ('north', 0.0049540800973773), # ('area', 0.004927229136228561), # ('south', 0.004815349355340004)]

get_topic_words() 메소드는 토픽 번호와 top_n 인자를 받아서, 해당 토픽에 포함되는 상위 단어를 보여줍니다. 위 코드에서는 18번 토픽과 7번 토픽의 주요 단어를 10개씩 출력했지요. 내용을 살펴보니 18번 토픽은 생물학과 관련된거 같고, 7번 토픽은 지리와 관련된 거 같습니다. 따라서 0번 문헌은 생물학 관련 내용 61%, 지리 관련 내용 29%를 차지한다고 말할 수 있겠습니다.

우리는 토픽의 개수를 20개로 설정했으므로 3000개 문헌에서 총 20개의 주제를 발견해냈습니다. 그리고 각각의 문헌이 20개의 토픽 중 어떤 토픽을 얼만큼 포함하는지도 확인할 수 있지요. 더 나아가서 각 문헌들의 주요 토픽에 따라 3000개의 문헌을 분류해볼 수도 있겠습니다. 다음 코드는 문헌이 가장 많이 차지하고 있는 토픽에 따라 전체 문헌을 분류해 주는 코드입니다.

# 먼저 토픽 개수만큼 공간을 만들어줍니다. buckets = [[] for _ in range(model.k)] # 전체 문헌에 대해, top 1 주제 번호를 찾아 그 그룹에 해당 문헌을 포함시킵니다. for d in model.docs: buckets[d.get_topics(top_n=1)[0][0]].append(d) # 이제 buckets[0] ~ buckets[19]에는 해당 토픽을 가장 많이 포함하고 있는 문헌들의 목록이 들어가 있습니다.

위의 코드는 0번부터 19번 토픽에 대해 해당 토픽을 가장 많이 포함한 문헌들을 묶어내줍니다. buckets[7]에는 7번 토픽(위에서 확인한바로는 지리와 관련된 내용이었죠)과 관련된 문헌들이 잔뜩 들어가 있을겁니다. 지리와 관련된 문헌이 몇개나 있는지 그 개수를 살펴볼까요?

for k in range(model.k): print('Num docs belonging to topic #%d: %d' % (k, len(buckets[k]))) # ... # Num docs belonging to topic #7: 206 # ...

7번 토픽을 가장 많이 포함하고 있는 문헌들은 206개라고 하네요. 각각의 문헌 내용을 간단히 살펴봅시다.

for d in buckets[7]: print(d) # ... # <tomotopy.Document with words="asteral order dicotyledon flower plant includ larg famili asteracea composita ... # <tomotopy.Document with words="aegean sea elong embay mediterranean sea locat greek anatolian peninsula ... # <tomotopy.Document with words="arabl land latin arabili abl plow accord one definit land capabl plough use grow crop ... # ...

... 그렇다고 합니다. 입력으로 사용한 enwiki3000.txt 파일이 이미 stemming이 끝난 상태라 문장을 읽기에는 조금 어려움이 있네요. 전처리 전의 원본 문헌을 같이 저장해두었다가 이때 출력해주면 조금더 알아보기 쉽겠네요. 현재 tomotopy 버전에서는 전처리 전의 문헌과 후의 문헌을 함께 관리하는 기능이 없어서 전처리 결과를 입력으로 넣을 수 밖에 없습니다. 따라서 이 부분은 직접 코드를 짜셔서 각각의 문헌번호에 맞춰 원본 문헌을 보관해주셔야 하겠습니다. 이 역시 좀더 편하게 다룰 수 있도록 인터페이스를 개선할 예정입니다.

급하게 적은 글이라 두서가 없지만, tomotopy 이용에 혼란을 겪고 계신 분들께 도움이 되었으면 좋겠습니다!

저작자표시 비영리 동일조건

'프로그래밍 > NLP' 카테고리의 다른 글

Lamon : 라틴어 품사 태거 개발기 (4)	2020.10.20
범용적인 감정 분석(극성 분석)은 가능할까 (10)	2020.07.08
[Python] tomotopy로 Correlated Topic Model 수행하고 시각화하기 (15)	2020.06.09
Chrono-gram을 이용해 라틴어 고문헌 연대 추정하기 (3)	2019.09.16
[토픽 모델링] 대량의 문헌을 주제에 따라 클러스터링해보기 (3)	2019.07.10
[Python] tomotopy로 쉽게 토픽 모델링 실시하기 (59)	2019.05.22

글쓴이 ∫2tdt=t²+c

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

방문자

오늘

어제

전체

나의 큰 O는 log x야

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

'프로그래밍 > NLP' 카테고리의 다른 글

관련글 더보기

댓글 영역

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

댓글

태그

방문자

티스토리툴바