정보검색론: 검색 성능 향상 전략

수업노트/정보검색론

by ∫2tdt=t²+c 2012. 12. 17. 22:56

검색 성능을 향상시키기 위한 전략들

* 질의 작성법: 용어절단, 인접검색, 제한검색

* 질의 확장/수정: 전역적, 지역적

* 검색결과 결합: 컬렉션 결합, 데이터 결합

* 단락 검색

용어절단: 용어의 일부분을 생략하고 나머지 부분을 이용하여 검색을 수행하는 것

*무제한절단: 제한되는 글자 수가 자유로움. wildcard의 *와 유사

*제한절단: 특정한 글자수로만 제한. wildcard의 ?와 유사

*좌측절단

*우측절단

*내부절단

인접검색: 검색어들이 인접하여 출현한 경우를 검색하기 위한것.

Dialog의 예

* solar(W)energy: solar energy가 연속해서 나타난 경우를 검색

* solar(3W)energy: solar (\w){0, 4} energy

* air(N)pollu?: (air pollu.*) | (pollu.* air)

* (S): 같은 문단에 출현한 경우

* (L): 같은 디스크립터에 출현한 경우

제한검색: 검색어가 특정 필드에 나오는 경우만을 검색하는 것

전역적 질의확장: 이용자가 입력한 원래의 질의어와 유사한 용어를 자동으로 추가하거나(자동 질의확장), 이용자가 선택하여 추가하는(상호작용적 질의확장) 기법.

* 유사도 시소러스에 의한 질의확장: 용어들간의 유사도 행렬을 작성하여, 임계치를 넘는 값들을 클러스터링한다.

* 전통적 시소러스에 의한 질의확장: 제곧내ㅋ

지역적 질의확장: 일차 검색된 문헌들을 대상으로, 유사한 용어를 추가하는 기법. 적합성 피드백에 의한 질의확장.

* 적합성 피드백에 의한 질의확장: 이용자 피드백(상위 n개의 문헌에 대해 사용자가 적합성여부를 판단하는 것), 시스템 피드백(자동으로 상위 n개를 모두 적합으로 판정)

- n은 몇으로 할까? (이용자 피드백의 경우 10, 시스템 피드백의 경우 5 이내)

- 적합문헌에 출현한 용어 가운데 얼마를 추가할 것인가?

* 벡터공간에서의 질의확장(로치오 공식)

alpha, beta, gamma는 계수로써, 주로 alpha=1로 사용한다. 두번째 항은 적합문헌벡터의 평균, 세번째 항은 부적합문헌벡터의 평균이다.

* Ide_Regular 공식: alpha=beta=gammar=1로 설정

* Ide_Dec_Hi 공식: Ide_Regular 공식, 부적합문헌은 1개만 선정해 반영함

컬렉션 결합: 여러 데이터베이스에서 검색을 수행하고 그 결과를 합치는 것

* 각각의 데이터베이스로부터 몇 개의 문헌을 검색할 것인가

* 검색된 문헌들을 어떻게 결합하여 순위화할 것인가

데이터 결합: 동일한 데이터베이스에서 여러 검색 기법을 사용하여 그 결과를 합치는 것

단락 검색: 하나의 문헌을 여러 개의 단락으로 나눈 뒤 단락별로 유사도를 산출하여, 적합한 단락을 검색해내는 방법.

* 문헌 안에서 단락을 어떻게 식별할 것인가

* 질의에 대한 각 단락의 유사도로부터 어떻게 문헌의 유사도를 산출할 것인가

저작자표시 비영리 동일조건 (새창열림)

'수업노트 > 정보검색론' 카테고리의 다른 글

정보검색론: 정보검색 모형2 (0)	2012.12.17
정보검색론: 정보검색 모형1 (0)	2012.12.17
정보검색론 5. 문헌 클러스터링 (2) (0)	2012.10.22
정보검색론 5. 문헌 클러스터링 (1) (0)	2012.10.22
정보검색론 3. 텍스트의 자동색인 (2) (0)	2012.10.22
정보검색론 3. 텍스트의 자동색인 (1) (0)	2012.10.21

글쓴이 ∫2tdt=t²+c

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

방문자

오늘

어제

전체

나의 큰 O는 log x야

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

'수업노트 > 정보검색론' 카테고리의 다른 글

관련글 더보기

댓글 영역

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

댓글

태그

방문자

티스토리툴바