[Python] 단어 간 상호정보량 계산 코드

프로그래밍

by ∫2tdt=t²+c 2017. 2. 14. 18:12

관련어를 추출하는데에 있어서 점별 상호정보량(http://bab2min.tistory.com/546)만큼 간단하면서도 훌륭한 방법은 많지 않습니다. 그래서 관련어 추출 방법들을 비교할 때 있어서 기준치로 쓰이기에 좋지요. 그래서 여기 저기 코드에서 상호정보량 계산 클래스를 자주 만들어 쓰다보니깐, 하나로 잘 만들어놔서 두고두고 재활용해야겠다는 생각이 들었습니다.

간결하면서도 아름다운 파이썬 코-드

class PMICalc: def __init__(self, **kargs): self.window = kargs.get('window', 5) self.minNum = kargs.get('minNum', 5) self.dictCount = {} self.dictBiCount = {} self.searchPair = {} self.nTotal = 0 def train(self, sentenceIter): def insertPair(a, b): if a > b: a, b = b, a elif a == b: return self.dictBiCount[a, b] = self.dictBiCount.get((a, b), 0) + 1 if a in self.searchPair: self.searchPair[a].add(b) else: self.searchPair[a] = set([b]) if b in self.searchPair: self.searchPair[b].add(a) else: self.searchPair[b] = set([a]) for sent in sentenceIter: self.nTotal += len(sent) for i, word in enumerate(sent): self.dictCount[word] = self.dictCount.get(word, 0) + 1 for j in range(i+1, min(i+self.window+1, len(sent))): if sent[j] != word: insertPair(word, sent[j]) def getCoOccurrence(self, a, b): if a > b: a, b = b, a elif a == b: return return self.dictBiCount.get((a, b), 0) def getPMI(self, a, b): import math co = self.getCoOccurrence(a, b) if not co: return None return math.log(float(co) * self.nTotal / self.dictCount[a] / self.dictCount[b]) def getHighestPair(self, a, n = 10): return sorted(map(lambda b:(b, self.getPMI(a,b)), filter(lambda x:self.getCoOccurrence(a,x) >= self.minNum, self.searchPair[a])), key=lambda x:x[1], reverse=True)[:n]

생성자로는 window와 minNum 파라미터를 넣어줄수 있습니다. window는 두 단어가 함께 출현하는 것으로 볼 거리를 설정해주면 되고, minNum 횟수 밑으로 등장하는 단어는 계산시 제거됩니다.

train 함수에 문장(단어들의 list)을 반환해주는 iterator를 넣어주면 자동으로 단어 빈도 및 함께 출현하는 빈도를 바탕으로 점별 상호 정보량을 계산해줍니다.

편리하게 사용하고자 보너스로 iterator 클래스를 하나 만들어놓았습니다.

# 행 별로 문장이 구분되어있고, 탭으로 단어가 구분된 텍스트 파일을 읽어줍니다. class SentenceReader: def __init__(self, filepath): self.filepath = filepath def __iter__(self): for line in open(self.filepath, encoding='utf-8'): yield list(s.split('\t'))

사용법은 간단합니다.

pc = PMICalc(window=8) pc.train(SentenceReader('test.txt')) # test.txt 파일을 읽어와 분석합니다. print(pc.getHighestPair('사람/NNG', 100)) # 사람/NNG과 관련성이 높은 단어 100개를 출력합니다.

저작자표시 비영리 동일조건

'프로그래밍' 카테고리의 다른 글

[Python] 특정 분포가 멱법칙(Power-law Distribution)을 따르는지 확인하기 (0)	2017.04.11
[Python] 네이버 영화 한줄평 크롤링 코드 (14)	2017.03.17
[Python] Steam 게임평 크롤링 코드 (0)	2017.03.17
CppCon 자료 링크 (0)	2017.02.05
[C++] 한글 두벌식 자판에서의 편집거리 (2)	2016.12.26
단어 클러스터링 프로그램 Civciv 개발기 - 편집거리와 클러스터링 알고리즘 (0)	2016.12.17

글쓴이 ∫2tdt=t²+c

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

방문자

오늘

어제

전체

나의 큰 O는 log x야

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

'프로그래밍' 카테고리의 다른 글

관련글 더보기

댓글 영역

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

댓글

태그

방문자

티스토리툴바