정보검색론: 검색 성능 향상 전략

Posted by 적분 ∫2tdt=t²+c
2012.12.17 22:56 수업노트/정보검색론

검색 성능을 향상시키기 위한 전략들

* 질의 작성법: 용어절단, 인접검색, 제한검색

* 질의 확장/수정: 전역적, 지역적

* 검색결과 결합: 컬렉션 결합, 데이터 결합

* 단락 검색



용어절단: 용어의 일부분을 생략하고 나머지 부분을 이용하여 검색을 수행하는 것

*무제한절단: 제한되는 글자 수가 자유로움. wildcard의 *와 유사

*제한절단: 특정한 글자수로만 제한. wildcard의 ?와 유사

*좌측절단

*우측절단

*내부절단


인접검색: 검색어들이 인접하여 출현한 경우를 검색하기 위한것.

Dialog의 예

* solar(W)energy: solar energy가 연속해서 나타난 경우를 검색

* solar(3W)energy: solar (\w){0, 4} energy

* air(N)pollu?: (air pollu.*) | (pollu.* air)

* (S): 같은 문단에 출현한 경우

* (L): 같은 디스크립터에 출현한 경우


제한검색: 검색어가 특정 필드에 나오는 경우만을 검색하는 것


전역적 질의확장: 이용자가 입력한 원래의 질의어와 유사한 용어를 자동으로 추가하거나(자동 질의확장), 이용자가 선택하여 추가하는(상호작용적 질의확장) 기법.

* 유사도 시소러스에 의한 질의확장: 용어들간의 유사도 행렬을 작성하여, 임계치를 넘는 값들을 클러스터링한다.

* 전통적 시소러스에 의한 질의확장: 제곧내ㅋ


지역적 질의확장: 일차 검색된 문헌들을 대상으로, 유사한 용어를 추가하는 기법. 적합성 피드백에 의한 질의확장.

* 적합성 피드백에 의한 질의확장: 이용자 피드백(상위 n개의 문헌에 대해 사용자가 적합성여부를 판단하는 것), 시스템 피드백(자동으로 상위 n개를 모두 적합으로 판정)

- n은 몇으로 할까? (이용자 피드백의 경우 10, 시스템 피드백의 경우 5 이내)

- 적합문헌에 출현한 용어 가운데 얼마를 추가할 것인가?

* 벡터공간에서의 질의확장(로치오 공식)

alpha, beta, gamma는 계수로써, 주로 alpha=1로 사용한다. 두번째 항은 적합문헌벡터의 평균, 세번째 항은 부적합문헌벡터의 평균이다.

* Ide_Regular 공식: alpha=beta=gammar=1로 설정

* Ide_Dec_Hi 공식: Ide_Regular 공식, 부적합문헌은 1개만 선정해 반영함


컬렉션 결합: 여러 데이터베이스에서 검색을 수행하고 그 결과를 합치는 것

* 각각의 데이터베이스로부터 몇 개의 문헌을 검색할 것인가

* 검색된 문헌들을 어떻게 결합하여 순위화할 것인가


데이터 결합: 동일한 데이터베이스에서 여러 검색 기법을 사용하여 그 결과를 합치는 것


단락 검색: 하나의 문헌을 여러 개의 단락으로 나눈 뒤 단락별로 유사도를 산출하여, 적합한 단락을 검색해내는 방법.

* 문헌 안에서 단락을 어떻게 식별할 것인가

* 질의에 대한 각 단락의 유사도로부터 어떻게 문헌의 유사도를 산출할 것인가



이 댓글을 비밀 댓글로
    • ㅇㅇ
    • 2018.04.17 16:01 신고
    감사합니다. 많은 도움이 되었습니다.