확률검색
- 각 문헌은 주어진 질의에 적합하거나 부적합하다
- 한 문헌에 대한 적합성 판정은 다른 문헌과는 독립적이다
위 가정을 바탕으로 하는 확률검색 모형은 문헌이 적합할 확률과 부적합학 확률을 이용하여 문헌의 적합성 순위를 결정해낸다. X는 임의의 문헌, W를 적합한 경우, W-bar를 부적합한 경우라고 할때, 부적합할 확률보다 적합할 확률이 높을 경우가 적합문헌이라고 할 수 있다.
일반적으로 P(W|X)는 계산하기 어려우므로, 베이즈의 정리 P(A|B) = P(B|A) P(A) / P(B)를 이용하여 다음과 같이 식을 변형한다.
조금더 간략하게 정리하면
어차피 오른쪽 항은 X가 포함되어있지 않은 상수이므로, 사전에 계산될 수 있는 값이고, 신경써야 할 값은 좌항이 된다. 계산의 편의를 위해 좌항에 로그를 취하고 이를 적합성 함수 g라고 하자.
결과적으로 g(X)가 클수록 적합한 문헌이므로, 적합성 순위는 g(X)에 따라 매길 수 있다.
g(X)를 계산하는 방법은 binary 모델인 경우와 2-Poisson 모델인 경우로 나누어 생각할 수 있다.
* Binary 모델
X = (x1, x2, x3, ..., xn)
xn은 문헌에 색인어 tn이 부여된 경우에는 1, 그 외에는 0의 값을 가진다.
pn : X가 적합문헌일때 색인어 tn이 부여될 확률
qn : X가 부적합문헌일때 색인어 tn이 부여될 확률
이라고 하면 전체 확률은 다음과 같다.
이제 g(X)를 계산해보면
와 같이 되는데, 여기서 마지막 시그마 안의 두번째 로그항은 xi와는 관계없는 상수이므로, 제거해도 전체 g(X)값끼리의 상대적인 순위는 바뀌지 않는다. 그러므로
로 계산할 수 있다.
이 계산을 위해서 필요한 pn, qn값은 사전에 데이터베이스 내 문헌들의 적합성 정보를 이용하여 계산해 두어야한다. 적합성 정보가 준비되어있지 않을 경우에는 pn이 동일하다고 가정하고 다음과 같이 공식을 변형할 수 있다.
이때 로그항의 값은 IDF와 유사해진다.
* 2-Poisson 모델
X = (x1, x2, x3, ..., xn)
xn은 문헌에 색인어가 등장하는 횟수로, 0 이상의 정수의 값을 가진다.
: 색인어 tn이 적합문헌에서 등장하는 평균빈도
: 색인어 tn이 부적합문헌에서 등장하는 평균빈도
라고 하면 푸아송 분포에 의해 전체 확률은 다음과 같이 계산할 수 있다.
이제 g(X)를 계산해보면
첫번째 시그마 항은 xi에 관계없는 상수이므로 제외해도 상관없다. 따라서 g(X)는 다음과 같이 계산할 수 있다.
검색성능 평가 척도
적합문헌 | 부적합문헌 | |
검색된 문헌 |
a |
b |
검색 안 된 문헌 |
c | d |
일때 다양한 평가 척도는 다음과 같이 계산된다.
*재현율 = a / (a+c)
*정확률 = a / (a+b)
*누락율 = 1-재현율 = c / (a+c)
*잡음률 = 1-정확률 = b / (a+b)
*부적합률 = b / (b+d)
*배제율 = d / (b+d)
*보편율 = a+c / (a+b+c+d)
* 평균재현율, 평균정확률
-* 매크로 평가: 질의별로 재현율과 정확률을 구한 뒤, 평균을 구하는 것 : 이용자가 시스템으로부터 기대할 수 있는 검색 성능을 나타냄
-* 마이크로 평가: 질의별로 적합/부적합/검색/비검색 문헌 수를 모두 합친뒤, 재현율과 정확률을 구하는것 : 시스템 입장에서 본 검색 성능
*F척도 = 2PR / (P+R)
11지점 평균정확률
*문헌 순위에 따른 재현율-정확률: 상위 n개의 문헌을 대상으로 재현율과 정확률을 계산한 것. n이 커짐에 따라 재현율을 높아지고, 정확률은 낮아지는 경향을 보인다.
이때 (재현율, 정확률) 쌍을 이용해 그래프를 그리면 특정 재현율 지점에서의 정확률을 구할 수 있는데, 11지점 평균정확률은 재현율이 0.0, 0.1, 0.2, 0.3, ... 1.0 인 지점에서의 정확율을 평균낸 값이다.
-n의 값에 따라 충분한 재현율 지점이 구해지지 않을 수 있으므로, 지점과 지점을 보간해야할 필요성이 있는데, 보간 방법으로는 계단 함수, 선형 보간법 등이 이용된다.
n순위 정확률: 상위 n개의 문헌을 대상으로 정확률을 계산한 것
적합문헌 평균정확률: 모든 적합문헌에 대해 그 적합문헌이 등장한 지점에서의 정확률을 평균낸것
R-정확률: 적합 문헌의 수를 R이라고 할때, R순위 정확률을 계산한것
정보검색론: 검색 성능 향상 전략 (2) | 2012.12.17 |
---|---|
정보검색론: 정보검색 모형1 (0) | 2012.12.17 |
정보검색론 5. 문헌 클러스터링 (2) (0) | 2012.10.22 |
정보검색론 5. 문헌 클러스터링 (1) (0) | 2012.10.22 |
정보검색론 3. 텍스트의 자동색인 (2) (0) | 2012.10.22 |
정보검색론 3. 텍스트의 자동색인 (1) (0) | 2012.10.21 |
댓글 영역