정보검색론 5. 문헌 클러스터링 (1)

수업노트/정보검색론

by ∫2tdt=t²+c 2012. 10. 22. 17:51

5.1. 자동분류 개요

자동분류란 분류 알고리즘에 의해 대상물이 유사한 패턴을 갖는 것 끼리 모아 집단화하는 작업을 말한다.

* 문헌 클러스터링(Document Clustering): 사전 분류체계없이 문헌간의 유사성을 따라 분류함.

* 텍스트 범주화(Text Categorization): 기계학습 방법에 의해 각 문헌을 사전 분류체계의 적절한 범주에 배정함.

* 중복적 분류: 한 문헌이 여러 클러스터에 포함될 수 있음

* 배타적 분류: 한 문헌은 한 클러스터에만 포함될 수 있음

* 내재적 분류(비지도학습)

* 외재적 분류(지도학습)

* 계층적 분류 <- 앞으로 주로 다룰 것.

* 비계층적 분류

5.2. 문헌 클러스터링 개요

문헌 클러스터링 가설

* 밀접하게 상호 관련된 문헌들은 동일한 정보요구에 대해 모두 적합할 것이다.

* 특정한 정보요구에 대해 적합한 문헌들과 부적합한 문헌들은 서로 다른 클러스터에 속할 것이다.

클러스터링 과정 (2장의 시소러스 자동구축(색인 및 시소러스 (2))과 유사함.)

1. 문헌의 자질을 선정하고, 문헌을 그 자질로 표현함.

2. 문헌 쌍마다 유사도를 산출하여 행렬로 표현함.

3. 클러스터 알고리즘에 따라 클러스터를 생성함.

클러스터링에 필요한 요소는 1)문헌들의 집합, 2)분류자질 집합, 3)유사도 척도, 4)클러스터링 알고리즘 이다.

5.3. 문헌 간 유사도 측정

두 문헌 X, Y가 벡터로 표현된다고 할때 거리계수(0일수록, 작을수록 유사하다는 뜻)는 다음과 같이 계산할 수 있다. (X, Y는 벡터, ||X||는 벡터의 길이를 뜻함, ·은 내적을 뜻함.)

유클리드 거리 계수

유사계수(1일수록 유사하다는 뜻)는 다음과 같이 계산할 수 있다.

코사인계수

다이스 계수

자카드 계수

내적 계수(정규화되지 않은 유사도)

문헌 X, Y가 이진 데이터로 표현될 경우에는 다음과 같이 계산할 수 있다. (X, Y는 집합, n(X)는 집합의 원소의 수를 말함.)

오치아이 계수

다이스 계수

자카드 계수

내적 계수(정규화되지 않은 유사도)

정영미, 2012, [정보검색연구], 연세대학교 출판 문화원.

저작자표시 비영리 동일조건

'수업노트 > 정보검색론' 카테고리의 다른 글

정보검색론: 정보검색 모형2 (0)	2012.12.17
정보검색론: 정보검색 모형1 (0)	2012.12.17
정보검색론 5. 문헌 클러스터링 (2) (0)	2012.10.22
정보검색론 3. 텍스트의 자동색인 (2) (0)	2012.10.22
정보검색론 3. 텍스트의 자동색인 (1) (0)	2012.10.21
정보검색론 2. 색인 및 시소러스 (2) (2)	2012.10.21

글쓴이 ∫2tdt=t²+c

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

방문자

오늘

어제

전체

나의 큰 O는 log x야

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

'수업노트 > 정보검색론' 카테고리의 다른 글

관련글 더보기

댓글 영역

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

댓글

태그

방문자

티스토리툴바