정보검색론 5. 문헌 클러스터링 (2)

수업노트/정보검색론

by ∫2tdt=t²+c 2012. 10. 22. 18:11

5.4. 클러스터링 기법

계층적 클러스터링 기법

* 응집적 알고리즘 : N개의 클러스터에서 출발해 N-1번의 결합과정을 거쳐서 한 덩어리로 뭉쳐짐. 주로 사용됨.

* 분열적 알고리즘 : 1개의 클러스터에서 출발해 N-1번의 분열과정을 거쳐서 N개의 클러스터로 나눠짐.

클러스터간의 유사도를 측정하는 방법에 따라 다음과 같이 구분할 수 있다.

* 단일연결 : 두 클러스터 간의 유사도가 가장 가까운 구성원 사이의 거리를 유사도로 측정.

* 완전연결 : 두 클러스터 간의 유사도가 가장 먼 구성원 사이의 거리를 유사도로 측정.

* 집단평균 : 모든 구성원 사이의 유사도를 평균내서 이를 유사도로 측정.

* 워드기법 : 오류제곱의 합이 최소로 증가하는 결합을 행함.

5.4.1.1. 단일연결 기법

문헌 A, B, C, D, E의 거리 계수 행렬은 아래와 같다.

	A	B	C	D	E
A
B	1.0
C	4.0	2.0
D	9.0	9.0	5.0
E	8.0	8.0	6.0	2.5

상태1. A, B, C, D, E

가장 가까운 클러스터 쌍을 찾아 통합한다. D(A,B)가 1.0으로 제일 작으므로 A, B가 통합된다.

상태2. {A, B}, C, D, E

역시 가장 가까운 클러스터 쌍을 찾아 통합한다. D({A, B}, C)는 D(A, C)=4, D(B, C)=2이므로, 둘 중에 더 가까운 값인 2로 결정된다. {A, B}와 C의 거리가 제일 작으므로 통합된다.

상태3. {A, B, C}, D, E

가장 가까운 클러스터 쌍을 찾아 통합한다. D(D, E)가 2.5로 제일 작으므로, D, E가 통합된다.

상태4. {A, B, C}, {D, E}

D({A, B, C}, {D, E})는 C와 D의 거리가 5로 제일 작으므로, 5로 결정된다. 마지막으로 {A, B, C}와 {D, E}가 통합된다.

5.4.1.2. 완전연결 기법

위와 같은 표를 이용해서 완전연결 기법으로 클러스터링해볼것이다. 완전연결 기법에서는 D({A, B}, C)가 D(A, C)=3와 D(B, C)=2 중에 가장 큰 값인 3으로 결정된다.

상태1. A, B, C, D, E

가장 가까운 클러스터 쌍을 찾아 통합한다. D(A,B)가 1.0으로 제일 작으므로 A, B가 통합된다.

상태2. {A, B}, C, D, E

역시 가장 가까운 클러스터 쌍을 찾아 통합한다. D({A, B}, C)는 D(A, C)=4, D(B, C)=2이므로, 둘 중에 더 먼 값인 4로 결정된다. {A, B}와 C의 거리보다 D,E의 거리가 2.5로 더 작으므로 D, E가 통합된다.

상태3. {A, B}, C, {D, E}

가장 가까운 클러스터 쌍을 찾아 통합한다. D({A, B}, C)는 4이고, D(C, {D, E})는 6이므로, {A, B}와 C가 통합된다.

상태4. {A, B, C}, {D, E}

D({A, B, C}, {D, E})는 A와 D의 거리가 9로 제일 크므로, 9로 결정된다. 마지막으로 {A, B, C}와 {D, E}가 통합된다.

5.4.1.3. 집단평균연결 기법

집단평균연결 기법에는 집단 간 평균과 집단 내 평균이 이용될 수 있는데, 집단 간 평균은 집단 내 평균과는 달리, 같은 집단 내에 속하는 문헌간의 거리를 평균계산에 넣지 않는다. 위의 표를 이용해서 집단 간 평균 기법으로 클러스터링해본다.

상태1. A, B, C, D, E

가장 가까운 클러스터 쌍을 찾아 통합한다. D(A,B)가 1.0으로 제일 작으므로 A, B가 통합된다.

상태2. {A, B}, C, D, E

역시 가장 가까운 클러스터 쌍을 찾아 통합한다. D({A, B}, C)는 D(A, C)=4, D(B, C)=2이므로, 둘의 평균 값인 3로 결정된다. {A, B}와 C의 거리보다 D,E의 거리가 2.5로 더 작으므로 D, E가 통합된다.

상태3. {A, B}, C, {D, E}

가장 가까운 클러스터 쌍을 찾아 통합한다. D({A, B}, C)는 3이고, D(C, D)=5, D(C, E)=6이므로 D(C, {D, E}) 는 5와 6의 평균인 5.5가 된다. {A, B}와 C가 통합된다.

상태4. {A, B, C}, {D, E}

D({A, B, C}, {D, E})는 D(A, D)=9, D(A, E)=8, D(B, D)=9, D(B, E)=8, D(C, D)=5, D(C, E)=6의 평균인 7.2로 결정된다. 마지막으로 {A, B, C}와 {D, E}가 통합된다.

5.5.1. 클러스터 타당성 평가

문헌 클러스터의 타당성 평가는 다음과 같은 질문에 대답을 제공한다.

* 데이터 집합이 nonrandom한 클러스터링 경향을 갖고 있는가?

* 클러스터링 결과 생성된 계층 구조가 원래의 데이터 집합의 구성원 간 유사관계를 잘 반영하는가?

* 검색 성능 향상에 효과적인가?

클러스터링 경향 검사

* 중복도 검사

* 최근접 이웃 검사

* 용어 밀도 검사

5.5.2. 클러스터링 성능 평가

* 외적 품질 척도: 수작업 분류 결과와 클러스터링 결과를 비교함

* 내적 품질 척도: 서로 다른 기법에 의해 생성된 클러스터링 결과를 비교함

랜드지수

		클러스터집합B
		포함	비포함
클러스터집합A	포함	a	b
클러스터집합A	비포함	c	d

인데, d의값이 커질수록 유사도의 값이 작아지기 때문에 CSIM지수를 더 자주 사용한다.

CSIM 지수

집합A와 집합B에서 같은 클러스터에 속하는 문헌쌍을 모조리 뽑아서, 겹치는 쌍의 수가 a, A에만 등장하는 쌍의 수가 b, B에만 등장하는 쌍의 수가 c.

F척도

1. 문헌 수 이용 방법

수작업으로 분류한 클래스와 클러스터링으로 분류한 클래스를 비교하여 P, R을 구해낸뒤 F척도를 계산함.

		클러스터
		포함	비포함
수작업	포함	a	b
수작업	비포함	c	d

정확도 P = a / (a+c)

재현률 R = a / (a+b)

f = 2PR / (P+R)

로 계산하고,

가중치를 부여하여 전체 클러스터링의 척도 F는 다음과 같이 구한다.

2. 문헌 쌍 이용 방법

CSIM지수를 구할때처럼, 수작업 분류 클래스의 모든 문헌쌍을 끄집어내고, 자동 클러스터링 클래스의 모든 문헌쌍을 끄집어내어

f = 2PR / (P+R) 공식에 대입하여 계산한다.

정영미, 2012, [정보검색연구], 연세대학교 출판 문화원.

저작자표시 비영리 동일조건 (새창열림)

'수업노트 > 정보검색론' 카테고리의 다른 글

정보검색론: 검색 성능 향상 전략 (2)	2012.12.17
정보검색론: 정보검색 모형2 (0)	2012.12.17
정보검색론: 정보검색 모형1 (0)	2012.12.17
정보검색론 5. 문헌 클러스터링 (1) (0)	2012.10.22
정보검색론 3. 텍스트의 자동색인 (2) (0)	2012.10.22
정보검색론 3. 텍스트의 자동색인 (1) (0)	2012.10.21

글쓴이 ∫2tdt=t²+c

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

방문자

오늘

어제

전체

나의 큰 O는 log x야

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

'수업노트 > 정보검색론' 카테고리의 다른 글

관련글 더보기

댓글 영역

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

댓글

태그

방문자

티스토리툴바