정보검색론 1.텍스트 정보 검색

Posted by 적분 ∫2tdt=t²+c
2012.10.21 00:30 수업노트/정보검색론

1.1. 정보검색 개요


정보검색은 이용자의 정보요구에 적합한 정보/지식을 다양한 정보원으로부터 찾아내는 모든 과정을 의미한다.


간단한 정보검색 모형


* 정보자료(원 자료, 주로 텍스트) -> 메타데이터(색인어)로 가공하여 검색엔진에 저장.

* 이용자의 정보요구(자연언어 Natural Language, 키워드 목록 Keyword, 블리언 조합 Boolean 등) -> 질의(Query)로 변환하여 검색엔진에 질의하면, 그 검색 결과를 이용자에게 돌려준다.


웹 기반의 최근 정보검색의 특징

 

* 교차언어 정보검색에 관한 연구(예: CJK 검색(중국, 일본, 한국))가 수행되고 있음.

* 웹 마이닝을 통해 새로운 정보를 발견해낼 수 있음.

* 방대한 양의 Full Text정보에 접근 가능.

* 정보 필터링, 주제 탐지 및 추적, 새로운 주제 탐지 등과 같은 기법의 연구/등장



   데이터  텍스트  웹데이터/문서

 알려진 데이터 검색

 데이터 검색

 정보검색

 웹검색

 새로운 데이터 검색

 데이터 마이닝

 텍스트 마이닝

 웹마이닝


정보 필터링 vs 정보검색


정보 필터링: 동적인 정보자원을 대상으로 정적인 질의를 처리하는 것

정보 검색: 정적인 정보자원을 대상으로 동적인 질의를 처리하는것


TREC(Text REtrieval Conference)

대규모의 실험집단을 대상으로하여 수행된 검색실험 결과들을 비교 평가하기 위한 회의.

IR 실험에는 일반적으로 1)문헌들, 2)질의들, 3)각각의 질의에 대한 적합문헌들을 골라놓은 셋 이 요구되는데 이는 대규모로 만들어 운용하기가 힘들기 때문에 실험에 한계가 있다. 이를 극복하기 위해 만들어진것이 TREC. TREC에서는 소급 검색, 정보 검색뿐만 아니라, 필터링 트랙, 교차언어 검색트랙, 질의응답, 웹트 랙, 신정보 트랙, 블로그 트랙, 법률정보 트랙 등도 운영하고 있다.


1.2. 텍스트 처리 개요


1960년대: 키워드 기반 패턴 매칭 기법(예: ELIZE, Baseball)

1970년대: 구문분석, 의미분석이 추가된 정교한 자연언어 시스템 등장.

1990년대: 대규모 말뭉치(corpus)가 구축됨, 이에 따라 텍스트 처리 수준도 크게 향상됨.


자연언어 처리의 두 가지 접근 방법

* 언어학적 기법

* 통계적 분석


1.3. 자연언어 처리 과정


형태소 분석, 어휘 분석, 구문 분석, 의미 분석, 화용 분석


1.4. 텍스트의 유형 및 구조


* 기능에 의한 구분: 해설체 텍스트(대게 유사한 구조적 특성을 가짐, 서론-본론-결론) vs 이야기체 텍스트



정영미, 2012, [정보검색연구], 연세대학교 출판 문화원.




이 댓글을 비밀 댓글로