정보검색론: 정보검색 모형2

수업노트/정보검색론

by ∫2tdt=t²+c 2012. 12. 17. 20:22

확률검색

- 각 문헌은 주어진 질의에 적합하거나 부적합하다

- 한 문헌에 대한 적합성 판정은 다른 문헌과는 독립적이다

위 가정을 바탕으로 하는 확률검색 모형은 문헌이 적합할 확률과 부적합학 확률을 이용하여 문헌의 적합성 순위를 결정해낸다. X는 임의의 문헌, W를 적합한 경우, W-bar를 부적합한 경우라고 할때, 부적합할 확률보다 적합할 확률이 높을 경우가 적합문헌이라고 할 수 있다.

일반적으로 P(W|X)는 계산하기 어려우므로, 베이즈의 정리 P(A|B) = P(B|A) P(A) / P(B)를 이용하여 다음과 같이 식을 변형한다.

조금더 간략하게 정리하면

어차피 오른쪽 항은 X가 포함되어있지 않은 상수이므로, 사전에 계산될 수 있는 값이고, 신경써야 할 값은 좌항이 된다. 계산의 편의를 위해 좌항에 로그를 취하고 이를 적합성 함수 g라고 하자.

결과적으로 g(X)가 클수록 적합한 문헌이므로, 적합성 순위는 g(X)에 따라 매길 수 있다.

g(X)를 계산하는 방법은 binary 모델인 경우와 2-Poisson 모델인 경우로 나누어 생각할 수 있다.

* Binary 모델

X = (x1, x2, x3, ..., xn)

xn은 문헌에 색인어 tn이 부여된 경우에는 1, 그 외에는 0의 값을 가진다.

pn : X가 적합문헌일때 색인어 tn이 부여될 확률

qn : X가 부적합문헌일때 색인어 tn이 부여될 확률

이라고 하면 전체 확률은 다음과 같다.

이제 g(X)를 계산해보면

와 같이 되는데, 여기서 마지막 시그마 안의 두번째 로그항은 xi와는 관계없는 상수이므로, 제거해도 전체 g(X)값끼리의 상대적인 순위는 바뀌지 않는다. 그러므로

로 계산할 수 있다.

이 계산을 위해서 필요한 pn, qn값은 사전에 데이터베이스 내 문헌들의 적합성 정보를 이용하여 계산해 두어야한다. 적합성 정보가 준비되어있지 않을 경우에는 pn이 동일하다고 가정하고 다음과 같이 공식을 변형할 수 있다.

이때 로그항의 값은 IDF와 유사해진다.

* 2-Poisson 모델

X = (x1, x2, x3, ..., xn)

xn은 문헌에 색인어가 등장하는 횟수로, 0 이상의 정수의 값을 가진다.

: 색인어 tn이 적합문헌에서 등장하는 평균빈도

: 색인어 tn이 부적합문헌에서 등장하는 평균빈도

라고 하면 푸아송 분포에 의해 전체 확률은 다음과 같이 계산할 수 있다.

이제 g(X)를 계산해보면

첫번째 시그마 항은 xi에 관계없는 상수이므로 제외해도 상관없다. 따라서 g(X)는 다음과 같이 계산할 수 있다.

검색성능 평가 척도

	적합문헌	부적합문헌
검색된 문헌	a	b
검색 안 된 문헌	c	d

일때 다양한 평가 척도는 다음과 같이 계산된다.

*재현율 = a / (a+c)

*정확률 = a / (a+b)

*누락율 = 1-재현율 = c / (a+c)

*잡음률 = 1-정확률 = b / (a+b)

*부적합률 = b / (b+d)

*배제율 = d / (b+d)

*보편율 = a+c / (a+b+c+d)

* 평균재현율, 평균정확률

-* 매크로 평가: 질의별로 재현율과 정확률을 구한 뒤, 평균을 구하는 것 : 이용자가 시스템으로부터 기대할 수 있는 검색 성능을 나타냄

-* 마이크로 평가: 질의별로 적합/부적합/검색/비검색 문헌 수를 모두 합친뒤, 재현율과 정확률을 구하는것 : 시스템 입장에서 본 검색 성능

*F척도 = 2PR / (P+R)

11지점 평균정확률

*문헌 순위에 따른 재현율-정확률: 상위 n개의 문헌을 대상으로 재현율과 정확률을 계산한 것. n이 커짐에 따라 재현율을 높아지고, 정확률은 낮아지는 경향을 보인다.

이때 (재현율, 정확률) 쌍을 이용해 그래프를 그리면 특정 재현율 지점에서의 정확률을 구할 수 있는데, 11지점 평균정확률은 재현율이 0.0, 0.1, 0.2, 0.3, ... 1.0 인 지점에서의 정확율을 평균낸 값이다.

-n의 값에 따라 충분한 재현율 지점이 구해지지 않을 수 있으므로, 지점과 지점을 보간해야할 필요성이 있는데, 보간 방법으로는 계단 함수, 선형 보간법 등이 이용된다.

n순위 정확률: 상위 n개의 문헌을 대상으로 정확률을 계산한 것

적합문헌 평균정확률: 모든 적합문헌에 대해 그 적합문헌이 등장한 지점에서의 정확률을 평균낸것

R-정확률: 적합 문헌의 수를 R이라고 할때, R순위 정확률을 계산한것

저작자표시 비영리 동일조건 (새창열림)

'수업노트 > 정보검색론' 카테고리의 다른 글

정보검색론: 검색 성능 향상 전략 (2)	2012.12.17
정보검색론: 정보검색 모형1 (0)	2012.12.17
정보검색론 5. 문헌 클러스터링 (2) (0)	2012.10.22
정보검색론 5. 문헌 클러스터링 (1) (0)	2012.10.22
정보검색론 3. 텍스트의 자동색인 (2) (0)	2012.10.22
정보검색론 3. 텍스트의 자동색인 (1) (0)	2012.10.21

글쓴이 ∫2tdt=t²+c

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

방문자

오늘

어제

전체

나의 큰 O는 log x야

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

'수업노트 > 정보검색론' 카테고리의 다른 글

관련글 더보기

댓글 영역

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

댓글

태그

방문자

티스토리툴바