[텍스트정보처리론] 1. 지프의 법칙

Posted by 적분 ∫2tdt=t²+c
2016.04.17 03:31 수업노트

지프의 법칙(Zipf's Law)

텍스트의 통계적 성질에 관한 법칙 중 하나로, 코퍼스 내에 등장하는 어휘의 빈도를 조사해서 크기순으로 정렬했을때, 그 빈도수와 순위는 반비례 관계에 있다는 법칙.

빈도 f는 순위r에 반비례한다. 


빨간선이 순위별 빈도수를 나타낸 것. Zipf의 법칙을 따르면 고빈도 어휘가 전체의 대부분을 차지하고, 저빈도 어휘가 나머지 비중을 나눠갖는다는 것. 단어세계의 20:80의 법칙이라고 비유할 수 있다.

Luhn은 Zipf의 법칙에 근거하여 색인어의 가중치를 주는 방법을 제안하였는데, 대부분을 차지하는 고빈도어휘(이를 Stop word 불용어라고 함.)와 극히 일부만을 차지하는 저빈도 어휘(Tails 꼬리)를 제외한 중간부분이 문헌 분석에서 더 중요한 역할을 한다는 것. 파란선은 해당 어휘의 중요도를 나타낸것. Luhn의 법칙을 따라 문헌을 색인할때는 대게 가운데 노란색으로 칠해진 부분에 해당하는 어휘만 추출하는 경우가 많음. Stop words를 날려버림으로써 전체 Dimension이 작아지고 이에 따라 텍스트 분석이 전반적으로 간단해지고 용이해진다.

하지만 이 Zipf의 법칙에 따르면 전체 문헌에서 불용어를 제외하고 쓸모있는 의미를 가진 색인어의 비중이 높지 않으므로, 통계적으로 유효한 분석을 얻으려면 전체 문헌의 크기가 매우 커야하고, 그렇지 않은 경우 통계적 분석이 어려울 수 있다는 것 또한 암시한다.

저작자 표시 비영리 동일 조건 변경 허락
신고
크리에이티브 커먼즈 라이선스
Creative Commons License
이 댓글을 비밀 댓글로

티스토리 툴바