[텍스트정보처리론] 1. 지프의 법칙

수업노트

by ∫2tdt=t²+c 2016. 4. 17. 03:31

지프의 법칙(Zipf's Law)

텍스트의 통계적 성질에 관한 법칙 중 하나로, 코퍼스 내에 등장하는 어휘의 빈도를 조사해서 크기순으로 정렬했을때, 그 빈도수와 순위는 반비례 관계에 있다는 법칙.

빈도 f는 순위r에 반비례한다.

빨간선이 순위별 빈도수를 나타낸 것. Zipf의 법칙을 따르면 고빈도 어휘가 전체의 대부분을 차지하고, 저빈도 어휘가 나머지 비중을 나눠갖는다는 것. 단어세계의 20:80의 법칙이라고 비유할 수 있다.

Luhn은 Zipf의 법칙에 근거하여 색인어의 가중치를 주는 방법을 제안하였는데, 대부분을 차지하는 고빈도어휘(이를 Stop word 불용어라고 함.)와 극히 일부만을 차지하는 저빈도 어휘(Tails 꼬리)를 제외한 중간부분이 문헌 분석에서 더 중요한 역할을 한다는 것. 파란선은 해당 어휘의 중요도를 나타낸것. Luhn의 법칙을 따라 문헌을 색인할때는 대게 가운데 노란색으로 칠해진 부분에 해당하는 어휘만 추출하는 경우가 많음. Stop words를 날려버림으로써 전체 Dimension이 작아지고 이에 따라 텍스트 분석이 전반적으로 간단해지고 용이해진다.

하지만 이 Zipf의 법칙에 따르면 전체 문헌에서 불용어를 제외하고 쓸모있는 의미를 가진 색인어의 비중이 높지 않으므로, 통계적으로 유효한 분석을 얻으려면 전체 문헌의 크기가 매우 커야하고, 그렇지 않은 경우 통계적 분석이 어려울 수 있다는 것 또한 암시한다.

저작자표시 비영리 동일조건

'수업노트' 카테고리의 다른 글

[문헌정보통계] 4. 표집과 표집분포 (0)	2016.04.19
[텍스트정보처리론] 3. XML (0)	2016.04.17
[텍스트정보처리론] 2. Tika (0)	2016.04.17
[텍스트정보처리론] 0. 텍스트 마이닝 (0)	2016.04.17
[문헌정보학입문] 0. 문정입 (0)	2016.04.12
[정보표준화론] 0. 수업 개요 (0)	2016.04.10

글쓴이 ∫2tdt=t²+c

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

방문자

오늘

어제

전체

나의 큰 O는 log x야

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

지프의 법칙(Zipf's Law)

'수업노트' 카테고리의 다른 글

관련글 더보기

댓글 영역

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

댓글

태그

방문자

티스토리툴바