정보검색론: 정보검색 모형1

수업노트/정보검색론

by ∫2tdt=t²+c 2012. 12. 17. 18:49

검색 모형의 종류

*불리언 검색 모형

*벡터공간 검색 모형

*확률 검색 모형

*퍼지집합 검색 모형

*확장 불리언 검색 모형

ad hoc 검색과 라우팅/필터링

*TREC-4 이전

- ad hoc 검색 : 정적인 정보원을 대상으로 동적인 질의를 처리

- 라우팅

*TREC-7 이후

- ad hoc 검색

- 필터링

-- 적응적 필터링: 적합성 피드백 시스템이 도입된 필터링

-- 배치 필터링: 대량의 학습문헌(적합문헌+부적합문헌)으로 프로파일을 구축하여 필터링 시행

-- 라우팅: 순위화하여 문헌을 출력함

불리언 검색: 불 대수를 이용하여 질의를 만족시키는 문헌을 검색하는 기법

1.각 검색어를 색인어로 가지는 문헌집합들을 생성함.

2.생성된 집합을 AND, OR, NOT 논리관계에 맞추어 교집합, 합집합, 차집합 연산을 수행함.

*도치색인/역색인

- 사전파일과 문헌번호파일을 이용해 시스템을 구성하는 것. (벡터공간 검색이나 확률 검색에서도 사용됨)

- 먼저 사전파일에서 해당하는 색인어를 찾아서, 그 포인터가 가리키는 곳으로 가면 문헌번호 파일들이 있다.

- 위의 예에서는 ABILITY에 해당하는 문헌번호로 5, 27, 42가 있고, 각각의 문헌에 따라 TF와 단어가 등장하는 위치를 알 수 있다.

- 문헌번호파일은 링크드 리스트 형식으로 구성되어 있어서, 차례로 다음 문헌으로 순회할 수 있게 되어있다.

- 단어번호를 이용해 인접검색을 수행할 수도 있다.

불리언 검색의 장점

*구현하기가 쉬움

*질의처리가 매우 효율적임

*상용 시스템에서 보편적으로 사용됨

불리언 검색의 한계

*검색어의 상대적인 중요도를 나타낼수 없음

*적합성 정도에 따라 순위화가 불가능함

*완전일치 문헌만 검색이 가능, 부분일치 문헌은 검색되지 않음

퍼지집합 검색: 전통적인 불리언 검색이 완전히 속하거나(1), 전혀 속하지 않거나(0)의 binary 시스템이었다면, 퍼지 모델은 속하는 정도에 따라 0~1 사이의 실수값을 부여할 수 있는 시스템

*퍼지집합의 정의: 멤버쉽 함수 f를 다음과 같이 정의함

= X가 집합 A에 속하는 정도 (0~1사이의 실수값)

합집합

교집합

차집합

D1 = {디지털: 0.5, 도서관: 0.6}

D2 = {디지털: 0.7, 도서관: 0.2}

D3 = {디지털: 0.9, 도서관: 0.4} 일때, "디지털 AND 도서관"이라는 질의는 다음과 같이 평가된다.

fA(D1) = 0.5, fB(D1) = 0.6 => fAnB(D1) = 0.5

fA(D2) = 0.7, fB(D2) = 0.1 => fAnB(D2) = 0.1

fA(D3) = 0.9, fB(D3) = 0.4 => fAnB(D3) = 0.4

따라서 D1, D3, D2의 순으로 순위매겨진다.

퍼지집합 검색의 장점

* 개념의 중요도를 표현할 수 있어 불리언 검색보다 융통성이 있음

* 검색된 문헌을 적합성에 따라 순위매길 수 있음

퍼지집합 검색의 한계

* 색인어에 가중치를 부여해야만 부분 멤버쉽함수를 적용할 수 있음

* 순위부여 능력은 모든 검색어에 대해 민감하지 못함 : 위의 예에서 D2 평가값은 0.1로 제일 낮게 나왔지만, 이용자가 '디지털'이라는 검색어를 더 중요시여겼을 경우에는 D2가 더 적합할 수 있다.

확장 불리언: MMM(Mixed Min and Max)모형

- 퍼지집합 검색 모형에서는 AND, OR 연산 시에 최대값과 최소값 중 하나만을 반영한 반면, MMM에서는 두 값을 모두 반영한다.

* MMM 연산의 정의

검색어 A, B, C와 문헌 D사이의 유사도는 다음과 같이 계산한다. (dA, dB, dC는 문헌 D가 가지는 A, B, C에 대한 색인어 가중치이다)

SIM(A and B and C, D) = a * min(dA, dB, dC) + (1-a) * max(dA, dB, dC)

SIM(A or B or C, D) = b * max(dA, dB, dC) + (1-b) * min(dA, dB, dC)

a와 b는 연성계수로써 a=1, b=1인 경우는 퍼지집합 검색과 동일해진다. 보통 0.5 <= a <= 0.8일때, b > 0.2 일때 좋은 성능을 보이는 것으로 보고되었음.

확장 불리언: P-norm 모형

- P-norm 모형은 색인어뿐만 아니라 검색어에도 가중치를 부여할 수 있음

* P-norm 연산의 정의

검색어 A_n에 대해 a_n의 가중치가 부여되어있다고 가정하자. 이때 검색어와 문헌 D 사이의 유사도는 다음과 같이 계산한다. (dA_n은 문헌 D가 가지는 A_n에 대한 색인어 가중치이다)

p는 파라미터로써, p=1인 경우는 and 연산과 or연산의 결과가 같아지며, 벡터공간 모형과 일치하게 된다. p=∞인 경우는 전통적인 불리언 모형과 같아진다. p=2일때 아주 좋은 성능을 보이는 것으로 보고되었다.

벡터공간 검색: 문헌과 질의를 용어벡터로 표현하여, 벡터 간의 유사도를 이용해 검색문헌을 순위화하는 모형

유사도 계수로는 주로 코사인 유사계수 공식을 사용한다.

*유사도 계산 예시: D는 문헌, Q는 검색어라고 하면, 나타나는 용어를 바탕으로 다음과 같이 표현할 수 있다

D = (온라인:3, 정보:2, 검색:3, 파일:1, 조직:1)

Q = (온라인:1, 문헌:1, 검색:1)

이를 벡터로 변환하면

D = (3, 2, 0, 3, 1, 1)

Q = (1, 0, 1, 1, 0, 0)

코사인 유사계수는 다음과 같이 계산된다.

SIM(D, Q) = (3*1 + 3*1) / sqrt((9+4+9+1+1) * (1+1+1)) = 0.7071

저작자표시 비영리 동일조건 (새창열림)

'수업노트 > 정보검색론' 카테고리의 다른 글

정보검색론: 검색 성능 향상 전략 (2)	2012.12.17
정보검색론: 정보검색 모형2 (0)	2012.12.17
정보검색론 5. 문헌 클러스터링 (2) (0)	2012.10.22
정보검색론 5. 문헌 클러스터링 (1) (0)	2012.10.22
정보검색론 3. 텍스트의 자동색인 (2) (0)	2012.10.22
정보검색론 3. 텍스트의 자동색인 (1) (0)	2012.10.21

글쓴이 ∫2tdt=t²+c

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

방문자

오늘

어제

전체

나의 큰 O는 log x야

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

'수업노트 > 정보검색론' 카테고리의 다른 글

관련글 더보기

댓글 영역

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

댓글

태그

방문자

티스토리툴바