검색 성능을 향상시키기 위한 전략들
* 질의 작성법: 용어절단, 인접검색, 제한검색
* 질의 확장/수정: 전역적, 지역적
* 검색결과 결합: 컬렉션 결합, 데이터 결합
* 단락 검색
용어절단: 용어의 일부분을 생략하고 나머지 부분을 이용하여 검색을 수행하는 것
*무제한절단: 제한되는 글자 수가 자유로움. wildcard의 *와 유사
*제한절단: 특정한 글자수로만 제한. wildcard의 ?와 유사
*좌측절단
*우측절단
*내부절단
인접검색: 검색어들이 인접하여 출현한 경우를 검색하기 위한것.
Dialog의 예
* solar(W)energy: solar energy가 연속해서 나타난 경우를 검색
* solar(3W)energy: solar (\w){0, 4} energy
* air(N)pollu?: (air pollu.*) | (pollu.* air)
* (S): 같은 문단에 출현한 경우
* (L): 같은 디스크립터에 출현한 경우
제한검색: 검색어가 특정 필드에 나오는 경우만을 검색하는 것
전역적 질의확장: 이용자가 입력한 원래의 질의어와 유사한 용어를 자동으로 추가하거나(자동 질의확장), 이용자가 선택하여 추가하는(상호작용적 질의확장) 기법.
* 유사도 시소러스에 의한 질의확장: 용어들간의 유사도 행렬을 작성하여, 임계치를 넘는 값들을 클러스터링한다.
* 전통적 시소러스에 의한 질의확장: 제곧내ㅋ
지역적 질의확장: 일차 검색된 문헌들을 대상으로, 유사한 용어를 추가하는 기법. 적합성 피드백에 의한 질의확장.
* 적합성 피드백에 의한 질의확장: 이용자 피드백(상위 n개의 문헌에 대해 사용자가 적합성여부를 판단하는 것), 시스템 피드백(자동으로 상위 n개를 모두 적합으로 판정)
- n은 몇으로 할까? (이용자 피드백의 경우 10, 시스템 피드백의 경우 5 이내)
- 적합문헌에 출현한 용어 가운데 얼마를 추가할 것인가?
* 벡터공간에서의 질의확장(로치오 공식)
alpha, beta, gamma는 계수로써, 주로 alpha=1로 사용한다. 두번째 항은 적합문헌벡터의 평균, 세번째 항은 부적합문헌벡터의 평균이다.
* Ide_Regular 공식: alpha=beta=gammar=1로 설정
* Ide_Dec_Hi 공식: Ide_Regular 공식, 부적합문헌은 1개만 선정해 반영함
컬렉션 결합: 여러 데이터베이스에서 검색을 수행하고 그 결과를 합치는 것
* 각각의 데이터베이스로부터 몇 개의 문헌을 검색할 것인가
* 검색된 문헌들을 어떻게 결합하여 순위화할 것인가
데이터 결합: 동일한 데이터베이스에서 여러 검색 기법을 사용하여 그 결과를 합치는 것
단락 검색: 하나의 문헌을 여러 개의 단락으로 나눈 뒤 단락별로 유사도를 산출하여, 적합한 단락을 검색해내는 방법.
* 문헌 안에서 단락을 어떻게 식별할 것인가
* 질의에 대한 각 단락의 유사도로부터 어떻게 문헌의 유사도를 산출할 것인가
정보검색론: 정보검색 모형2 (0) | 2012.12.17 |
---|---|
정보검색론: 정보검색 모형1 (0) | 2012.12.17 |
정보검색론 5. 문헌 클러스터링 (2) (0) | 2012.10.22 |
정보검색론 5. 문헌 클러스터링 (1) (0) | 2012.10.22 |
정보검색론 3. 텍스트의 자동색인 (2) (0) | 2012.10.22 |
정보검색론 3. 텍스트의 자동색인 (1) (0) | 2012.10.21 |
댓글 영역