상세 컨텐츠

본문 제목

정보검색론: 정보검색 모형2

수업노트/정보검색론

by ∫2tdt=t²+c 2012. 12. 17. 20:22

본문

확률검색

- 각 문헌은 주어진 질의에 적합하거나 부적합하다

- 한 문헌에 대한 적합성 판정은 다른 문헌과는 독립적이다

위 가정을 바탕으로 하는 확률검색 모형은 문헌이 적합할 확률과 부적합학 확률을 이용하여 문헌의 적합성 순위를 결정해낸다. X는 임의의 문헌, W를 적합한 경우, W-bar를 부적합한 경우라고 할때, 부적합할 확률보다 적합할 확률이 높을 경우가 적합문헌이라고 할 수 있다.

일반적으로 P(W|X)는 계산하기 어려우므로, 베이즈의 정리 P(A|B) = P(B|A) P(A) / P(B)를 이용하여 다음과 같이 식을 변형한다.


조금더 간략하게 정리하면

어차피 오른쪽 항은 X가 포함되어있지 않은 상수이므로, 사전에 계산될 수 있는 값이고, 신경써야 할 값은 좌항이 된다. 계산의 편의를 위해 좌항에 로그를 취하고 이를 적합성 함수 g라고 하자.

결과적으로 g(X)가 클수록 적합한 문헌이므로, 적합성 순위는 g(X)에 따라 매길 수 있다.

g(X)를 계산하는 방법은 binary 모델인 경우와 2-Poisson 모델인 경우로 나누어 생각할 수 있다.


* Binary 모델

X = (x1, x2, x3, ..., xn)

xn은 문헌에 색인어 tn이 부여된 경우에는 1, 그 외에는 0의 값을 가진다.

pn : X가 적합문헌일때 색인어 tn이 부여될 확률

qn : X가 부적합문헌일때 색인어 tn이 부여될 확률

이라고 하면 전체 확률은 다음과 같다.

이제 g(X)를 계산해보면

와 같이 되는데, 여기서 마지막 시그마 안의 두번째 로그항은 xi와는 관계없는 상수이므로, 제거해도 전체 g(X)값끼리의 상대적인 순위는 바뀌지 않는다. 그러므로

로 계산할 수 있다.


이 계산을 위해서 필요한 pn, qn값은 사전에 데이터베이스 내 문헌들의 적합성 정보를 이용하여 계산해 두어야한다. 적합성 정보가 준비되어있지 않을 경우에는 pn이 동일하다고 가정하고 다음과 같이 공식을 변형할 수 있다.

이때 로그항의 값은 IDF와 유사해진다.


* 2-Poisson 모델

X = (x1, x2, x3, ..., xn)

xn은 문헌에 색인어가 등장하는 횟수로, 0 이상의 정수의 값을 가진다.

: 색인어 tn이 적합문헌에서 등장하는 평균빈도

: 색인어 tn이 부적합문헌에서 등장하는 평균빈도

라고 하면 푸아송 분포에 의해 전체 확률은 다음과 같이 계산할 수 있다.

이제 g(X)를 계산해보면



첫번째 시그마 항은 xi에 관계없는 상수이므로 제외해도 상관없다. 따라서 g(X)는 다음과 같이 계산할 수 있다.


검색성능 평가 척도


   적합문헌  부적합문헌
 검색된 문헌

 a

 b

 검색 안 된 문헌

 c  d

일때 다양한 평가 척도는 다음과 같이 계산된다.

*재현율 = a / (a+c)

*정확률 = a / (a+b)

*누락율 = 1-재현율 = c / (a+c)

*잡음률 =  1-정확률 = b / (a+b)

*부적합률 = b / (b+d)

*배제율 = d / (b+d)

*보편율 = a+c / (a+b+c+d)


* 평균재현율, 평균정확률

-* 매크로 평가: 질의별로 재현율과 정확률을 구한 뒤, 평균을 구하는 것 : 이용자가 시스템으로부터 기대할 수 있는 검색 성능을 나타냄

-* 마이크로 평가: 질의별로 적합/부적합/검색/비검색 문헌 수를 모두 합친뒤, 재현율과 정확률을 구하는것 : 시스템 입장에서 본 검색 성능


*F척도 = 2PR / (P+R)


11지점 평균정확률

*문헌 순위에 따른 재현율-정확률: 상위 n개의 문헌을 대상으로 재현율과 정확률을 계산한 것. n이 커짐에 따라 재현율을 높아지고, 정확률은 낮아지는 경향을 보인다.

이때 (재현율, 정확률) 쌍을 이용해 그래프를 그리면 특정 재현율 지점에서의 정확률을 구할 수 있는데, 11지점 평균정확률은 재현율이 0.0, 0.1, 0.2, 0.3, ... 1.0 인 지점에서의 정확율을 평균낸 값이다.

-n의 값에 따라 충분한 재현율 지점이 구해지지 않을 수 있으므로, 지점과 지점을 보간해야할 필요성이 있는데, 보간 방법으로는 계단 함수, 선형 보간법 등이 이용된다.


n순위 정확률: 상위 n개의 문헌을 대상으로 정확률을 계산한 것

적합문헌 평균정확률: 모든 적합문헌에 대해 그 적합문헌이 등장한 지점에서의 정확률을 평균낸것

R-정확률: 적합 문헌의 수를 R이라고 할때, R순위 정확률을 계산한것


관련글 더보기

댓글 영역