2.3.1. 시소러스의 활용
* 수작업 구축 시소러스(manual thesaurus)
* 자동 구축 시소러스(automatic thesaurus)
시소러스를 활용하는 유형
1. 색인과 검색 단계에서 모두 활용
2. 색인에서만 활용
3. 검색에서만 활용
4. 안 씀ㅋ
1번은 시소러스에 익숙한 정보전문가가 이용할 경우 높은 검색 성능을 가져올 수 있음.
2번은 검색어로 입력된 키워드를 디스크립터로 매핑하거나, 유사한 의미관계에 있는 디스크립터를 추가함으로써 성능향상을 도모할 수 있음.
2.3.2. 시소러스의 구성
(1) 등가관계: 동의어, 유사동의어, USF/UF (Used For)
-동일한 의미, 별도의 철자, 별도의 어순, 약어와 완전어 등의 관계
(2) 계층관계: 상위-하위 관계. BT(Broader Term)/NT(Narrower Term). TT(Top Term)
-속종관계, 전체-부분관계, 사례관계
(3) 연관관계: 개념적으로 연관성을 가지는 용어들의 관계, RT(Related Term)
2.4. 시소러스의 자동 구축
자동 시소러스는 검색성능의 향상을 목적으로 구축된다. 대부분의 경우 정확률(Precision)보다는 재현율(Recall)을 향상시키기 위함!
적합문헌(검색되어야하는) |
비적합문헌(검색되지 말아야하는) | |
검색된 문헌 |
a개 | b개 |
검색되지 않은 문헌 |
c개 | d개 |
* Precision = a / (a b) : 총 검색된 문헌 중 적합한 문헌의 비중 (얼마나 적합한가)
* Recall = a / (a c) : 총 적합한 문헌 중 검색된 문헌의 비중 (얼마나 검색되었는가)
(대게 Precision과 Recall은 반비례 관계에 있다.)
말뭉치 출현빈도를 이용한 시소러스 자동 구축.
* 같은 문맥에 자주 출현할수록 그 두 단어는 서로 관련있을 것이다.
시소러스 자동 구축 과정 (5장의 문헌 클러스터링(5. 문헌 클러스터링 (1))과 동일함.)
1. 색인어가 될 수 있는 단어들을 추출하고, 그 빈도를 계산한다.
2. 단어 쌍들이 공통으로 등장하는 빈도를 계산한다.
3. 그 빈도를 바탕으로 유사도를 계산한다.
4. 유사도를 이용해 단어를 클러스터링한다.
5. 클러스터링된 단어들은 연관성이 있을것이다.
1. 문헌 용어 행렬 계산
t1 |
t2 | t3 | t4 | t5 | t6 | |
D1 |
0 | 4 | 0 | 1 | 0 | 2 |
D2 | 3 | 1 | 4 | 0 | 1 | 2 |
D3 | 3 | 0 | 0 | 2 | 3 | 0 |
2. 용어 간 유사도 행렬 계산 (내적계수 이용)
t1 | t2 | t3 | t4 | t5 | t6 |
|
t1 | ||||||
t2 | 3 | |||||
t3 | 12 | 4 | ||||
t4 | 6 | 4 | 0 |
|||
t5 | 12 | 1 | 4 | 6 | ||
t6 | 6 | 10 |
8 |
2 | 2 |
오른쪽 위의 절반은 어차피 왼짝 아래의 절반과 같기 때문에 계산할 필요가 없음.
(t1,t2)는 위의 문헌용어 행렬에서 t1의 열들과 t2의 열들을 곱해서 더한 값.(0*4 3*1 3*0)
여기에 threshold를 10으로하여 이원행렬을 구하고, 클러스터링하면 됨.
3. 용어간 이원행렬
t1 | t2 | t3 | t4 | t5 | t6 |
|
t1 | ||||||
t2 | 0 |
|||||
t3 | 1 |
0 |
||||
t4 | 0 |
0 |
0 |
|||
t5 | 1 |
0 |
0 |
0 |
||
t6 | 0 |
1 |
0 |
0 |
0 |
따라서 t1-t3-t5가 한 클러스터로, t2-t6이 다른 클러스터, t4가 독립적인 클러스터로 분류됨.
정영미, 2012, [정보검색연구], 연세대학교 출판 문화원.
정보검색론 5. 문헌 클러스터링 (1) (0) | 2012.10.22 |
---|---|
정보검색론 3. 텍스트의 자동색인 (2) (0) | 2012.10.22 |
정보검색론 3. 텍스트의 자동색인 (1) (0) | 2012.10.21 |
정보검색론 2. 색인 및 시소러스 (1) (0) | 2012.10.21 |
정보검색론 1.텍스트 정보 검색 (0) | 2012.10.21 |
정보검색론 중간고사 목차 (0) | 2012.10.20 |
댓글 영역