상세 컨텐츠

본문 제목

[문헌정보통계] 7. 상관

수업노트

by ∫2tdt=t²+c 2016. 6. 9. 04:28

본문

상관(Correlation)

두 개 이상 변수들 간의 관계

쌍의 측정치를 다루는 것. 두 자료가 서로 연관이 있는것으로 묶여있을때 상관개념을 논할 수 있음.

예) 성인 남성의 키와 몸무게: 상관계수 산출 가능. / 성인 남성의 키와 성인 여성의 몸무게: 두 자료가 연결이 안되므로 불가능.


상관계수(Coefficient of correlation): 두 변수들이 서로 관계되는 정도를 나타내는 지수. -1~1의 값을 가짐.


정적 상관관계: 한 변수가 클수록 다른 변수도 크고, 한 변수가 작을수록 다른 변수도 작은 경우

부적 상관관계: 한 변수가 클때 다른 변수는 작고, 한 변수가 작을때 다른 변수는 큰 경우

상관이 없는 경우: 두 변수가 아무 관계가 없을때, 마구 흩어져 있을때

상관계수는 강도(상관계수의 절대값. 1에 가까울수록 강한 상관)와 방향(+는 정적, -는 부적)을 표현한다.

상관계수는 두 변수의 변화율을 보여주는 기울기가 아니다!


상관계수의 종류

피어슨 상관계수(Pearson product moment correlation coefficient, r): 대부분 이 상관계수를 사용함.

Spearman rho, rs: 등위상관계수. 순위가 매겨진 것들 간의 상관을 구할때 사용.

Biserial correlation coefficient

Point-biserial correlation coefficient

Tetrachoric correlation coefficient

Phi correlation coefficient

Contingency coefficient


상관계수의 해석

모든 상관관계를 인과관계로 해석할수 있는 것은 아니다.

A와 B가 상관이 있다고 해서 A가 B의 원인인가?

까마귀 날자 배 떨어진다 -> 배가 떨어진 원인이 까마귀가 난 것인가?

실제 사례: 머리카락 길이와 키는 부적 상관관계가 있음. 그러니깐 머리를 자르면 키가 커질까?

인과관계를 도출하기 위해서는 시간의 경과에 따른 관련성 증가 데이터가 필요함.


상관관계를 해석시 무엇과 무엇의 상관인지에 대해 여러가지를 고려해야하므로 획일적이고 일반적인 해석은 위험하다.


머리카락 길이와 키가 부적 상관관계가 있는 이유


피어슨 상관계수

두 변수 X,Y에 대해 x_1~x_n, y_1~y_n까지 N쌍의 자료가 존재한다고 할때, 두 변수 간의 피어슨 상관계수는 다음과 같이 정의된다.

X와 Y의 공분산을 X,Y의 표준편차 s_x, s_y로 나눠준 값이다. 또한 다음과 같이 식을 변형하여, 편차만을 가지고 계산할수도 있다.


X_i의 편차를 x_i, Y_i의 편차를 y_i라고 쓰면 더 간략하게 쓸수도 있다.


두 변수 X와 Y를 평균과 표준편차를 이용해 Z점수로 변환하면 더 간단한 계산도 가능하다.



등위상관계수

서열척도, 등위척도를 포함하는 경우 사용한다. X변수에서의 등수와 Y변수에서의 등수가 주어졌을때 Spearman 등위상관계수는 다음과 같이 계산된다.

여기서 D는 두 변수에서의 등수 차이인 (X_i - Y_i)이다.

두 변수가 같은 순위를 보일 경우 그 값은 1이 되고, 정반대의 순위를 보일경우 -1이된다. 간단한 증명은 아래에


유의성 검증

위 방법대로 도출된 상관계수가 유의미한 값을 가지는지 판단하기 위함.


t 값은 n과 r이 커질수록 증가한다. 대체로 n이 클수록 상관계수는 유의미하므로 상관계수의 유의성에 집중하기보다는 얻어진 상관계수가 얼마나 유용한지를 살펴보는게 낫다.

관련글 더보기

댓글 영역