정보검색론 3. 텍스트의 자동색인 (2)

Posted by 적분 ∫2tdt=t²+c
2012.10.22 16:52 수업노트/정보검색론

3.2.4. 적합성 가중치


적합성 가중치는 문헌집단을 구성하는 문헌들을 질의에 대해 적합문헌과 부적합문헌으로 구분한 뒤, 그 속에서의 단어 출현빈도를 이용하여 산출하는 가중치이다. 즉 이 계산을 위해서는 색인어에 대해 적합/비적합 문헌을 사전에 구별해놓는것이 필요하다.



   적합문헌(Relevant)  부적합문헌  총합
 색인어가 부여된 문헌
 r  n-r  n
 부여되지 않은 문헌
 R-r  N-n-R+r  N-n
 총합  R  N-R  N


이를 이용하여 가중치는 다음과 같이 구할 수 있다.





처음에는 모든 검색어가 적합문헌에 출현할 확률이 똑같다고 가정하면 다음과 같은 식을 유도할 수 있다.

즉 충분히 큰 N에 대해서 W4의 초기값은 역문헌빈도 공식의 가중치 값과 유사해진다.


3.2.5. 2-포아송 분포 모형


포아송 분포모형: 어떤 집단 내에서 평균적으로 n번 발생하는 사건이, k번 발생할 확률을 계산해내는 모형.


포아송 분포 모형. λ는 단어의 평균 등장 빈도.


2-포아송 분포 모형 λ1은 단어가 주제어로 역할하지 못하는 문헌에서의 평균 등장 빈도. λ2은 단어가 주제어로 역할하는 문헌에서의 평균 등장 빈도.

단일 포아송 분포 모형은 단어가 전체 문헌 집단에 무작위하게 출현하는 경우를 설명하기에 적합하다. 주로 이러한 패턴으로 나타나는 단어는 비주제어로써, 주제어 선정을 위해서는 단일 포아송 모형을 사용하기엔 부적합하다.


2-포아송 분포 모형은 문헌 집단을 부적합 클래스(1)와 적합 클래스(2)로 나누어서 각각의 클래스에서의 단어의 빈도를 바탕으로 세운 모형으로써, 주제어가 적합클래스(2)에 λ2의 빈도로 나타나는 반면, 부적합 클래스(1)에는 더 낮은 λ1의 빈도로 나타나는것을 설명할수 있다.

어떤 단어가 좋은 색인어가 되기 위해서는 클래스(1)과 클래스(2)의 차이를 극대화시켜야 한다. 즉 두 문헌 클래스의 중복도를 나타내는 z가 다음과 같다고 할때


z값이 커질수록 그 색인어는 두 문헌 클래스를 잘 분리하는것이므로 좋은 색인어가 되는 것이다.



3.4. N-gram 기법


N-gram은 문자열을 n크기의 substring으로 분할하여 처리하는 것을 의미한다. '정보검색론'을 2-gram으로 처리한다면,

_정, 정보, 보검, 검색, 색론, 론_

으로 분할하여 처리하겠다는 것이다.


N-gram 기법을 통하여 단어간의 유사도를 쉽게 계산해 낼수 있는데, 두 단어를 N-gram으로 분할한 뒤, 그 substring들끼리의 다이스 계수 공식(5장(5. 문헌 클러스터링 (1))에서 나옴) 등을 적용하면 된다.


N-gram 기법은 기존의 언어학적 기법에 비해 여러가지 장점을 가진다.


* 형태소 분석 등의 언어학적 처리가 불필요하다. (굳이 형태소 분석을 하지 않더라도 같은 어근을 가지는 단어는 유사도 계수가 높게 나오기 때문)

* 특정 언어나 주제 분야에 의존적이지 않다. 즉 어떤 언어/분야에도 사용될 수 있다.

* 오타를 수용할 수 있다. (오타가 나더라도 원단어와의 유사도가 어느 정도 높게 나오기 때문에 정정/수용하기에 좋다.)


정영미, 2012, [정보검색연구], 연세대학교 출판 문화원.



이 댓글을 비밀 댓글로