[문헌정보통계] 3. 산포도의 의미와 성질

Posted by 적분 ∫2tdt=t²+c
2016.04.07 01:38 수업노트

산포도(=변산도, variability)

* 집중경향치만으로는 자료의 분포를 제대로 설명할 수가 없으므로, 각 요소가 어디를 중심으로 모여있는지와 더불어, 얼마나 흩어져 있는지도 기술할 필요가 있음. 이 이질성의 정도를 나타내는 값을 산포도라고 하며, 범위, 사분위편차, 표준편차, 평균편차, 분산 등이 사용됨.

* 산포도가 클수록 요소들이 중심경향치로부터 멀리 떨어져 있고, 산포도가 작을수록 요소들이 중심경향치에 가깝게 모여 있음. 모든 요소가 같은 지점에 있을 경우 산포도는 0이 됨


범위(Total Range)

: 자료의 최대치와 최소치 사이의 간격

(묶음자료가 아닌 경우) 최고요소 - 최저요소 + 1

(묶음자료일 경우) 최상 급간의 정확상한계 - 최하 급간의 정확하한계

* 한계: 자료의 범위 외의 다른 정보를 알려주지 못함, 자료를 왜곡시킬 수 있는 극단치에 대해 설명없음


사분위편차(quartile deviation)

: 중위수를 기반으로 하는 산포도 계산방식

여기서 Q1은 하위에서부터 25%지점에 있는 요소, Q3는 하위에서 75%지점에 있는 요소의 값을 가리킴


(묶음자료가 아닐 경우)

사분위간 범위(interquartile range) : 

사분위 편차: 


(묶음자료일 경우)

앞서 보간법을 이용해 도수분포표에서 중위수를 구하던 방법을 마찬가지로 활용하여 Q1, Q3를 구한다.


* 중앙값이 전체 자료를 상위50%, 하위50%으로 나누므로, Q1, Q3의 위치를 이용하면 자료의 편포 정도를 설명할 수 있다.

 정적편포: Q3-Q2 > Q2-Q1

 부적편포: Q3-Q2 < Q2-Q1

 영편포: Q3-Q2 = Q2-Q1


편차(deviation): 한 요소가 평균치로부터 떨어진 정도 d = X - m

* 편차의 합은 언제나 0이므로, 여러 편차들을 대표할 값을 구하기 위해서는 단순히 합하는 것이 아니라 다른 방법이 필요함

평균편차: 편차들의 절대값의 합 -> 중위수와 연관



표준편차: 편차들의 제곱의 합의 제곱근 -> 평균과 연관




최소자승의 속성(어떤 x와 각 점수들간의 편차의 제곱의 합을 최소로 만드는 x값이 평균)은 앞에서 증명했고 이 때 그 최소값이 표준편차의 제곱인 분산으로 정의됨. 마찬가지로 '어떤 x와 각 점수들간의 절대값의 합을 최소로 만드는 x값이 중위수'라는 사실 역시 참이다.


분산: 표준편차의 제곱. V(X)

E(X)는 X의 기대값, 평균값이라는 의미


모집단과 표본집단 간의 관계




모분산과 표본분산

표본분산은 언제나 모분산보다 작을수 밖에 없음

n의 크기가 커질수록 표본분산은 모분산에 가까워짐

표본을 이용해 모분산을 추정할 경우 계산방법을 달리한다.


모집단의 분산의 기댓값을 구하기 위해 다음 식을 생각해보자.

우리가 추정한 분산의 기댓값이 모분산과 같아야 하므로 위와 같은 식을 세울 수 있다. 여기서 D = n-1이어야함을 보여보자.


이다. 여기서 분산의 계산공식에 따라

이고,

이므로


따라서 E(S^2) = s^2 이 성립하려면 D = n-1이어야한다.

이때 n-1을 자유도(degree of freedom)라고 한다.


변동계수(coefficient of variation)

: 표준편차 / 평균

* 평균이 다른 분포끼리 산포도를 비교하기 위해 사용함. 이는 평균이 클수록 표준편차도 대체로 크다는 특성을 이용한 것으로 CV값을 이용하면 평균의 크기와 관계없이 두 집단의 산포도를 비교할 수 있다.


CQD(coefficient of quartile deviation)

: 중위수, 사분위수를 위한 변동계수

중위수를 모를 경우 Q3와 Q1의 평균을 중위수로 가정하고 CQD를 구할 수도 있다.


표준편차의 의미

집단이 정규분포를 따른다고 가정할 경우 평균에서 ±σ 범위 안에 전체 자료 중 약 68.2%가 분포한다. ±2σ 범위 안에는 약 95.4%가 분포하고, ±3σ 범위 안에는 약 99.8%가 분포한다. (±1.96σ 안에 95%, ±2.58σ 안에 99%)


Z를 이용하면 임의의 분포를 평균은 0, 표준편차는 1인 분포로 변환할 수 있으며, 이 값을 특정 값이 전체 분포에서 어느 정도 지점에 위치해있는지 알려주는 지표로 사용가능.

이 댓글을 비밀 댓글로