* 문헌 클러스터링(Document Clustering): 사전 분류체계없이 문헌간의 유사성을 따라 분류함.
* 텍스트 범주화(Text Categorization): 기계학습 방법에 의해 각 문헌을 사전 분류체계의 적절한 범주에 배정함.
* 중복적 분류: 한 문헌이 여러 클러스터에 포함될 수 있음
* 배타적 분류: 한 문헌은 한 클러스터에만 포함될 수 있음
* 내재적 분류(비지도학습)
* 외재적 분류(지도학습)
* 계층적 분류 <- 앞으로 주로 다룰 것.
* 비계층적 분류
5.2. 문헌 클러스터링 개요
문헌 클러스터링 가설
* 밀접하게 상호 관련된 문헌들은 동일한 정보요구에 대해 모두 적합할 것이다.
* 특정한 정보요구에 대해 적합한 문헌들과 부적합한 문헌들은 서로 다른 클러스터에 속할 것이다.
클러스터링 과정 (2장의 시소러스 자동구축(색인 및 시소러스 (2))과 유사함.)
1. 문헌의 자질을 선정하고, 문헌을 그 자질로 표현함.
2. 문헌 쌍마다 유사도를 산출하여 행렬로 표현함.
3. 클러스터 알고리즘에 따라 클러스터를 생성함.
클러스터링에 필요한 요소는 1)문헌들의 집합, 2)분류자질 집합, 3)유사도 척도, 4)클러스터링 알고리즘 이다.
5.3. 문헌 간 유사도 측정
두 문헌 X, Y가 벡터로 표현된다고 할때 거리계수(0일수록, 작을수록 유사하다는 뜻)는 다음과 같이 계산할 수 있다. (X, Y는 벡터, ||X||는 벡터의 길이를 뜻함, ·은 내적을 뜻함.)
유클리드 거리 계수
유사계수(1일수록 유사하다는 뜻)는 다음과 같이 계산할 수 있다.
코사인계수
다이스 계수
자카드 계수
내적 계수(정규화되지 않은 유사도)
문헌 X, Y가 이진 데이터로 표현될 경우에는 다음과 같이 계산할 수 있다. (X, Y는 집합, n(X)는 집합의 원소의 수를 말함.)
오치아이 계수
다이스 계수
자카드 계수
내적 계수(정규화되지 않은 유사도)
정영미, 2012, [정보검색연구], 연세대학교 출판 문화원.
정보검색론: 정보검색 모형2 (0) | 2012.12.17 |
---|---|
정보검색론: 정보검색 모형1 (0) | 2012.12.17 |
정보검색론 5. 문헌 클러스터링 (2) (0) | 2012.10.22 |
정보검색론 3. 텍스트의 자동색인 (2) (0) | 2012.10.22 |
정보검색론 3. 텍스트의 자동색인 (1) (0) | 2012.10.21 |
정보검색론 2. 색인 및 시소러스 (2) (2) | 2012.10.21 |
댓글 영역