앞선글(TextRank 기법을 이용한 핵심 어구 추출 및 텍스트 요약) 에서 텍스트 랭크 알고리즘을 소개하면서 직접 실험해보고자 파이썬 코드를 짰었는데요, 정리해서 공유해드립니다. 페이지랭크 계산에 networkx 패키지를 사용하므로, networkx가 설치되어있는지 확인부탁드립니다.
* 의존 패키지: networkx
사용법은 어렵지 않습니다. 다음과 같이 쓰면 됩니다.
TextRank 생성자는 인수로 window, coef, threshold를 받습니다.
* window : 문맥으로 사용할 단어의 개수. 기본값 5로 주면 특정 단어의 좌우 5개씩, 총 10개 단어를 문맥으로 사용합니다.
* coef : 동시출현 빈도를 weight에 반영하는 비율입니다. 기본값은 1.0로, 동시출현 빈도를 weight에 전부 반영합니다. 0.0일 경우 빈도를 반영하지 않고 모든 간선의 weight을 1로 동일하게 간주합니다.
* threshold: 문서 요약시 관련있는 문장으로 여길 최소 유사도값. 기본값은 0.005이고, 이 값보다 작은 유사도를 가지는 문장쌍은 관련없는문장으로 처리합니다.
문서요약시에는 loadSents로 문장을 읽어들이고, summarize로 결과를 얻습니다.
키워드 추출시에는 load로 문장을 읽어들이고, extract로 키워드를 추출합니다.
SIMD를 이용한 깁스 샘플링 연산 최적화(SSE2, AVX) (0) | 2018.05.06 |
---|---|
동시출현빈도 제대로 계산하기! (10) | 2018.03.04 |
영어 동사 원형 복원기(English Verb Lemmatizer) (0) | 2017.09.26 |
[Python] 특정 분포가 멱법칙(Power-law Distribution)을 따르는지 확인하기 (0) | 2017.04.11 |
[Python] 네이버 영화 한줄평 크롤링 코드 (14) | 2017.03.17 |
[Python] Steam 게임평 크롤링 코드 (0) | 2017.03.17 |
댓글 영역