정보검색론 2. 색인 및 시소러스 (1)

Posted by 적분 ∫2tdt=t²+c
2012.10.21 00:52 수업노트/정보검색론

2.1.1. 색인의 개념


색인(indexing): 개개의 정보자료의 특성을 표현하는 데이터 요소를 추출하여, 그 정보자료를 표현하는 작업.

색인어(index term), metadata: 색인 결과 추출된 데이터 요소


주제 색인어: 주제를 나타내는 색인어, 예: 키워드, 디스크립터/주제명

비주제 색인어: 저자명, 기관명, 출판년도 등


2.1.2. 자연언어 색인 vs 통제언어 색인


자연언어 색인: 텍스트에 나타난 형태 그대로의 용어를 색인어로 채택. 키워드

-하나의 개념이 다른 키워드로 표현될 수 있으므로, 하나의 키워드로 모든 관련 자료를 찾아낼 수 없음.

-어간/어근을 가지는 용어들도 마찬가지 문제를 지님.

통제언어 색인: 시소러스나 주제명표 등의 어휘목록을 참조해 동일한 개념은 하나의 색인어로 표현. 디스크립터(시소러스 사용시), 주제명(주제명표 사용시)


많은 온라인 데이터베이스 서비스에서는 자연언어 색인과 통제언어 색인을 함께 채택하고 있으며, 검색어를 자연어로 받아 통제 색인어로 변환하는 기능을 갖춘 것들도 있다.


2.2. 인용색인



(인용문헌)

 A가 B를 인용

(피인용문헌)

 문헌A

 ------>

 문헌B

인용된 문헌은 내용에 있어 인용한 문헌과 관련이 있다! 는 가설을 바탕으로 인용색인을 이용해 검색을 수행할 수 있음.

인용색인은 연구대상의 분야가 다학문적, 융합적 분야거나 미성숙분야여서, 주제색인이 어렵고, 색인어가 마련되어있지 않았을때 효과적인 도구가 될 수 있다.


인용색인의 한계

* 손쉽게 구할수 있는 자료라서 인용하는 경우가 많음

* 두 문헌이 같은 문헌을 인용하더라도, 문헌의 같은 부분을 인용하는지는 알 수 없다.

* 자기인용, 권위 있는 문헌의 무조건 인용.

* 전체 문헌의 10%정도는 전혀 인용되지 않는데, 이런 문헌은 검색할 수 없다.

* 대다수의 인용문헌은 영어권 출판물에 집중되어 있다.


2.2.4. 서지결합 기법과 동시인용 분석 기법


서지결합 기법: 여러 개의 문헌이 공통되는 인용문헌을 가지고 있으면, 서로 주제적으로 관련이 있다고 판단.

A->E, A->F, B->E, B->F 로 인용한다면, A와 B는 E와 F를 동시에 인용하므로, 서지결합도는 그 갯수인 2가 된다.

동시인용 기법: 두 편의 논문이 제 3의 문헌에서 동시에 인용될수록 주제적으로 연관이 있다고 판단.

위의 예에서 E와 F는 A와 B에게서 동시에 인용되었으므로, 동시인용도는 그 갯수인 2가 된다.

동시인용도는 새로운 문헌이 나올때마다 바뀔수 있으므로 동적이다.


2.2.5. 인용링크 분석 기법


서지결합 기법과 동시인용 기법을 웹문서에 적용한 버전.

동시 링크됨(co-linked) : 동시인용 기법과 같음

동시 링크함(co-linking) : 서지결합 기법과 같음


정영미, 2012, [정보검색연구], 연세대학교 출판 문화원.





이 댓글을 비밀 댓글로