정보검색론 5. 문헌 클러스터링 (1)

Posted by 적분 ∫2tdt=t²+c
2012.10.22 17:51 수업노트/정보검색론
5.1. 자동분류 개요

자동분류란 분류 알고리즘에 의해 대상물이 유사한 패턴을 갖는 것 끼리 모아 집단화하는 작업을 말한다.


* 문헌 클러스터링(Document Clustering): 사전 분류체계없이 문헌간의 유사성을 따라 분류함.

* 텍스트 범주화(Text Categorization): 기계학습 방법에 의해 각 문헌을 사전 분류체계의 적절한 범주에 배정함.


* 중복적 분류: 한 문헌이 여러 클러스터에 포함될 수 있음

* 배타적 분류: 한 문헌은 한 클러스터에만 포함될 수 있음

* 내재적 분류(비지도학습)

* 외재적 분류(지도학습)

* 계층적 분류 <- 앞으로 주로 다룰 것.

* 비계층적 분류


5.2. 문헌 클러스터링 개요


문헌 클러스터링 가설

* 밀접하게 상호 관련된 문헌들은 동일한 정보요구에 대해 모두 적합할 것이다.

* 특정한 정보요구에 대해 적합한 문헌들과 부적합한 문헌들은 서로 다른 클러스터에 속할 것이다.


클러스터링 과정 (2장의 시소러스 자동구축(색인 및 시소러스 (2))과 유사함.)


1. 문헌의 자질을 선정하고, 문헌을 그 자질로 표현함.

2. 문헌 쌍마다 유사도를 산출하여 행렬로 표현함.

3. 클러스터 알고리즘에 따라 클러스터를 생성함.


클러스터링에 필요한 요소는 1)문헌들의 집합, 2)분류자질 집합, 3)유사도 척도, 4)클러스터링 알고리즘 이다.


5.3. 문헌 간 유사도 측정


두 문헌 X, Y가 벡터로 표현된다고 할때 거리계수(0일수록, 작을수록 유사하다는 뜻)는 다음과 같이 계산할 수 있다. (X, Y는 벡터, ||X||는 벡터의 길이를 뜻함, ·은 내적을 뜻함.)


유클리드 거리 계수


유사계수(1일수록 유사하다는 뜻)는 다음과 같이 계산할 수 있다.


코사인계수


다이스 계수


자카드 계수


내적 계수(정규화되지 않은 유사도)



문헌 X, Y가 이진 데이터로 표현될 경우에는 다음과 같이 계산할 수 있다. (X, Y는 집합, n(X)는 집합의 원소의 수를 말함.)


오치아이 계수


다이스 계수


자카드 계수


내적 계수(정규화되지 않은 유사도)


정영미, 2012, [정보검색연구], 연세대학교 출판 문화원.


이 댓글을 비밀 댓글로