정보검색론 2. 색인 및 시소러스 (2)

Posted by 적분 ∫2tdt=t²+c
2012.10.21 01:22 수업노트/정보검색론

2.3.1. 시소러스의 활용


* 수작업 구축 시소러스(manual thesaurus)

* 자동 구축 시소러스(automatic thesaurus)


시소러스를 활용하는 유형

1. 색인과 검색 단계에서 모두 활용

2. 색인에서만 활용

3. 검색에서만 활용

4. 안 씀ㅋ


1번은 시소러스에 익숙한 정보전문가가 이용할 경우 높은 검색 성능을 가져올 수 있음.

2번은 검색어로 입력된 키워드를 디스크립터로 매핑하거나, 유사한 의미관계에 있는 디스크립터를 추가함으로써 성능향상을 도모할 수 있음.



2.3.2. 시소러스의 구성


(1) 등가관계: 동의어, 유사동의어, USF/UF (Used For)

-동일한 의미, 별도의 철자, 별도의 어순, 약어와 완전어 등의 관계


(2) 계층관계: 상위-하위 관계. BT(Broader Term)/NT(Narrower Term). TT(Top Term)

-속종관계, 전체-부분관계, 사례관계


(3) 연관관계: 개념적으로 연관성을 가지는 용어들의 관계, RT(Related Term)


2.4. 시소러스의 자동 구축


자동 시소러스는 검색성능의 향상을 목적으로 구축된다. 대부분의 경우 정확률(Precision)보다는 재현율(Recall)을 향상시키기 위함!


 

 적합문헌(검색되어야하는)

 비적합문헌(검색되지 말아야하는)
 검색된 문헌
 a개  b개
 검색되지 않은 문헌
 c개  d개

* Precision = a / (a b) : 총 검색된 문헌 중 적합한 문헌의 비중 (얼마나 적합한가)

* Recall = a / (a c) : 총 적합한 문헌 중 검색된 문헌의 비중 (얼마나 검색되었는가)

(대게 Precision과 Recall은 반비례 관계에 있다.)


말뭉치 출현빈도를 이용한 시소러스 자동 구축.

* 같은 문맥에 자주 출현할수록 그 두 단어는 서로 관련있을 것이다.


시소러스 자동 구축 과정 (5장의 문헌 클러스터링(5. 문헌 클러스터링 (1))과 동일함.)

1. 색인어가 될 수 있는 단어들을 추출하고, 그 빈도를 계산한다.

2. 단어 쌍들이 공통으로 등장하는 빈도를 계산한다.

3. 그 빈도를 바탕으로 유사도를 계산한다.

4. 유사도를 이용해 단어를 클러스터링한다.

5. 클러스터링된 단어들은 연관성이 있을것이다.



1. 문헌 용어 행렬 계산

 

 t1

 t2  t3  t4  t5  t6

 D1

 0  4  0  1  0  2
 D2  3  1  4  0  1  2
 D3  3  0  0  2  3

 0



2. 용어 간 유사도 행렬 계산 (내적계수 이용)

   t1  t2  t3  t4  t5

 t6

 t1            
 t2  3          
 t3  12  4        
 t4  6  4

 0

     
 t5  12  1  4  6    
 t6  6

 10

 8

 2  2  

오른쪽 위의 절반은 어차피 왼짝 아래의 절반과 같기 때문에 계산할 필요가 없음.

(t1,t2)는 위의 문헌용어 행렬에서 t1의 열들과 t2의 열들을 곱해서 더한 값.(0*4 3*1 3*0)


여기에 threshold를 10으로하여 이원행렬을 구하고, 클러스터링하면 됨.


3. 용어간  이원행렬

   t1  t2  t3  t4  t5

 t6

 t1            
 t2

 0

         
 t3

 1

 0

       
 t4

 0

 0

 0

     
 t5

 1

 0

 0

 0

   
 t6

 0

 1

 0

 0

 0

 

따라서 t1-t3-t5가 한 클러스터로, t2-t6이 다른 클러스터, t4가 독립적인 클러스터로 분류됨.


정영미, 2012, [정보검색연구], 연세대학교 출판 문화원.





이 댓글을 비밀 댓글로