정보검색론 3. 텍스트의 자동색인 (1)

Posted by 적분 ∫2tdt=t²+c
2012.10.21 02:32 수업노트/정보검색론

3.1. 자동색인 개요


자동색인: 컴퓨터를 통해 문헌의 내용을 대표할수 있는 단어나 단어구를 선정하는 작업

비주제어: 흔히 공통적으로 출현하는 일반명사, 형용사, 부사 등. 불용어(stop words)로 처리한다.


기본 가설

* 문헌에 출현한 단어들은 내용 분석을 위해 사용될 수 있다.

* 단어의 출현빈도로 주제어로서의 중요성을 측정할 수 있다. (통계적 기법)

* 특정한 구문적 기능을 수행하는 단어(구)가 문헌의 내용을 대표한다. (언어학적 기법)

* 특정한 위치에 출현한 단어(구)가 문헌의 내용을 대표한다. (구조적 기법)


자동색인 과정

1. 문헌집단에서 색인어로 사용될 단어들을 식별한다.

2. 불용어 리스트를 활용하여 가치가 없는 고빈도어를 제거한다.

3. 형태소 분석기(KLT, Porter stemmer 등)를 이용하여 어간/어근을 분리한 뒤 색인어로 채택한다.

4. 문헌을 표현하는 어간/어근 형태에 가중치를 부여한다.

5. 어간/어근 : 가중치 쌍의 집합으로 문헌을 표현한다.


3.2. 통계적 기법

Luhn의 가설: 고빈도/저빈도의 단어는 주제어로서 가치가 없고, 중간빈도의 단어가 적합하다.

Zipf의 법칙: 순위와 빈도수는 반비례


주제어로서의 중요성을 측정하는 방법들.

* 출현빈도: 단순빈도/정규화빈도

* 가중치: 문헌분리값/신호량 가중치/적합성 가중치

* 확률분포 모형: 푸아송 분포 모형/2-푸아송 분포 모형/점유분포


3.2.1. 단순빈도와 정규화빈도 가중치


단어빈도(Term Frequency, TF): 한 문헌 내에 등장하는 단어의 수

문헌빈도(Document Frequency, DF): 한 단어가 출현한 문헌의 수

장서빈도(Collection Frequency, CF): 전체 문헌 집단에서 등장하는 단어의 수


단순빈도: 출현빈도를 그대로 사용하는 것.

정규화빈도: 출현빈도를 문헌빈도, 장서빈도, 텍스트 길이 등에 의해 정규화한 것.

TF-IDF 가중치: 단어빈도에 역문헌빈도를 곱하는 가중치 계산법. 널리 쓰임.


Smart System: TREC에서 실험되는 다양한 가중치들을 알파벳 3글자로 표현하는 방법.

'TF요소 + IDF요소 + 정규화요소'로 이루어짐.


TF요소

코드

 유형

 계산법

 b  이진 TF

 1, 0

 n  단순 TF

 f

 l  로그 TF

 1 + log f

 a

 보정 TF

 (1-b) + b(f / max(f))


IDF요소

 코드

 유형
 n  역문헌빈도 사용안함
 t  역문헌빈도 사용함


문헌길이 정규화 요소

코드  유형
 n  사용 안함
 c  코사인 정규화
 a  최대 TF 정규화
 b  바이트 크기 정규화
 u

 피벗 고유단어 정규화


* 문헌길이 정규화가 필요한 이유 : 긴 문헌일수록 단어의 출현빈도가 높아지므로, 단어의 가중치가 커지고 질의와의 유사도가 커진다. 그 결과 긴 문헌이 검색될 확률이 높아진다. 이를 방지하기 위해 문헌길이 정규화가 필요하다.


3.2.2. 단어의 문헌분리값


문헌분리값(term dicscrimination value): 특정 단어가 문헌집단 속에서 상호 관련없는 문헌들을 분리시키는 능력을 측정한 값


문헌벡터 Di (i는 1부터 n까지의 정수)가 있다고 하면, 문헌 간의 평균유사도는 다음과 같이 구해질 수 있다.

k는 상수로써 일반적으로 ij쌍의 전체 개수의 역수인 1/(n*(n+1))로 둔다.

S는 유사도 함수로서, 내적계수, 다이스 계수 등을 이용할 수 있다. 유사도 계산방법은 5장에서 자세히 다룬다.

Di에서 단어 k를 제거한 후 같은 방법으로 구한 문헌 간의 평균유사도를 Qk라고 하면


를 구할 수 있다.

이 값이 양수라는 것은 단어 k가 없을때 보다 있을때의 유사도가 낮다는 말이므로, k는 변별력을 갖춘 좋은 색인어라는 것을 의미한다.


3.2.3. 신호량 가중치


Shannon의 이론을 바탕으로 평균정보량이 적은 단어를 선정하기 위한 기준이다.


평균정보량은 다음과 같이 계산된다.

p_i는 특정 메세지의 발생확률이다.

특정 단어의 발생확률은 tf/CF이므로 이 값을 계산해 p_i에 대입하면 된다.

H는 확률이 고르게 분포할 수록 큰 값을 가지므로, 신호량은 다음과 같이 계산할 수 있다


정영미, 2012, [정보검색연구], 연세대학교 출판 문화원.



이 댓글을 비밀 댓글로