상세 컨텐츠

본문 제목

[문헌정보통계] 2. 집중경향치의 성질

수업노트

by ∫2tdt=t²+c 2016. 3. 27. 21:00

본문

분포를 설명해주는 특성

* 집중 경향(Central Tendency = 중심경향): 확률분포에서 중심이 되거나 일반적인 값. 전체의 경향을 가장 잘 드러내는 값 (a central or typical value for a probability distribution)

* 산포도: 분포에서 자료들이 흩어져 있는 정도를 수치화한 값.

집중 경향과 산포도를 이용하면 자료의 전반적인 분포 형태를 설명할 수 있음


집중 경향치로 사용되는 값

* 최빈값: 한 분포에서 가장 많이 나타나는 값

* 중위수(중간치): 한 분포에서 가장 중앙에 나타나는 값

* 평균(산술/조화/기하)

* 절사 평균


최빈값(mode; Mo)

한 분포에서 가장 많이 나타나는 값을 뜻하며, 자료에 따라 최빈값이 없거나 하나 이상일 수도 있음.

묶음 자료가 아닌 경우: 자료 중 가장 많이 나타나는 수를 최빈값으로 선정

묶음 자료인 경우: 빈도가 가장 큰 구간의 중위수를 최빈값으로 선정

단일최빈분포(unimodal dist.): 최빈값이 1개인 경우


쌍최빈분포(bimodal dist.): 최빈값이 2개인 경우. ex) 성인 남녀의 키 분포


다중최빈분포(multimodal dist.): 최빈값이 2개 이상인 경우

-인접한 급간보다 빈도수가 높은 경우를 최빈값으로 설정. 따라서 최빈값들이 서로 같을 필요없음.



중위수(median; Mdn, 중간치)

전체 자료를 반으로 나누는 지점의 값. 누적빈도분포에서 곡선의 높이가 50%가 되는 지점의 x좌표.

묶음 자료가 아닌 경우:

- N이 홀수: (N+1)/2 번째 값

- N이 짝수: N/2 번째 값과 (N/2)+1번째 값의 평균

묶음 자료일 경우:

Lp : p번째 급간의 정확하한계

Cp : p번째 급간전까지의 누적빈도

Wi : i번째 급간의 크기

fp : p번째 급간의 빈도


급간 f Cf
74~78 10 200
69~73 18 190
64~68 16 172
59~63 16 156
54~58 11 140
49~53 27 129
44~48 17 102
39~43 49 85
34~38 22 36
29~33 6 14
24~28 8 8

계산 예

오른쪽 표에서 전체 자료중 50% 지점에 해당하는 값을 가진 급간은 44~48이므로, Lp = 43.5, Cp = 85, Wi = 5, fp = 17이 된다. 따라서 계산식은


가 된다.


<공식 유도>

중위수가 전체 자료를 반으로 나누는 지점의 값으로 정의된다는 사실과 급간 내의 자료들이 고르게 분포되어있다는 가정에서 출발한다. 전체 자료를 반으로 나누는 지점 x가 p번째 급간에 있다고 할때,

 이므로, 자료가 급간 내에 균등하게 분포한다는 가정아래 x의 값은 아래와 같이 선형 보간할 수 있다. (직선의 방정식을 풀어서 x를 구하는 것과 동일)


 (여기서 Cp의 계차수열은 fp이고, Lp의 계차수열은 급간의 크기이므로)

공식 유도 끗.


중위수의 활용: 자료가 편포되어있거나, 극단치가 있는 경우 평균보다 왜곡으로부터의 영향이 작음.

델파이 기법 등에서 활용됨


평균치(mean; M)

산술평균치(arithmetic mean): 여러 수의 합을 개수로 나눈 값, 평균을 중심으로 숫자들이 모여있음을 뜻함.

묶음자료가 아닐 경우: 


가중치를 달리 주는 평균: 학점 계산하듯이 특정 자료별로 비중을 달리 두어 계산하는 방법


묶음자료의 경우:


위의 식처럼 급간의 중간치 Xi와 빈도수 f를 곱해 모두 더하여 계산할수 있지만, 이렇게 필산할 경우 숫자가 커져 계산이 복잡해질 수 있음.

이 경우 최빈값 MP를 중심으로 급간의 차이 i와 빈도수 f를 곱해 더하는 변형식이 유용하게 쓰일 수 있음.


<두번째 식의 유도>


(MP는 계산에 편리한 임의의 값. 대게 최빈값으로 둠, W는 급간의 크기)라고 하면

이고

열린 급간(ex: 30세 이상)에 대해서는 급간의 중간치를 설정할 수 없어 평균을 계산하기 곤란함.


기하평균(geometric mean): 등비수열적(곱해지거나 나눠져서)으로 증감하는 자료에서 사용하는 중심경향치.

2배와 1/2배의 중간을 1.25배(산술 평균으로 계산한 경우)가 아니라 1배(기하평균으로 계산한 경우)로 보는 것.

계산법(로그 취한 자료들의 산술 평균을 구한 뒤 지수 취한 것과 동일)


활용: 물가상승률 등의 평균을 계산할때. 1년차에는 2배, 2년차에는 8배 상승한 경우, 2년 동안 16배 상승했으므로, 연 평균 상승량은 4배 (=√2*8). 5배((2+8)/2)라고 하면 안된다


조화평균(harmonic mean): 역수의 평균의 역수.

활용: 역수로 계산되는 것들의 평균을 구할때 사용. 속도의 평균 등

예) 100m를 뛰어가는데 갈때는 10m/s, 올때는 5m/s로 뛴 경우 전체 평균 속력은 10과 5의 조화평균인 6.666


중심경향치들간의 비교

목적별: 범주, 상대빈도 자료에는 최빈값이 적절

성질별:

* 명목변수는 최빈값 계산 가능, 서열변수는 최빈값, 중위수 계산 가능

* 등간변수, 비율변수는 최빈값, 중위수, 평균치 계산 가능

분포별

* 평균치: 대칭적인 분포에서 적당

* 중위수: 극단치에 영향을 받지 않으므로, 극단치가 있는 경우 유리. 단 자료의 양이 적은 경우는 무의미

* 최빈값: 극단치에 영향을 받지 않음


산술평균치의 성질

* 모든 자료의 영향을 받음

* 자료 좌우의 무게가 평균을 중심으로 균형을 이룸

* 최소자승의 속성: 어떤 x와 각 점수들간의 편차의 제곱의 합이 최소로 만드는 x값이 평균


<최소자승의 속성 증명>

최소자승의 속성:를 최소화하는 t값은 X의 평균이다.

임의의 t에 대해 위 시그마를 전개하면

위 식은 t에 대한 2차함수로 볼 수 있고, N은 0일수 없으므로 각항을 N으로 나누면

 이므로, f(t)는 t=M일때 최소값을 갖는다.

이 때 이 최소값을 분산으로 정의하는 건 덤.



중위수의 성질

* 중위수 상하로 사례수가 같음.

* 다른 자료에 대해 민감하지 않음


최빈값의 성질

* 빈도가 가장 많은 점수에 영향을 받음.


편포도(왜도)에 따른 중심경향치간의 크기 비교

대칭분포: M = Mdn = Mo

정적편포(왜도>0, 왼쪽으로 치우침) 분포: M > Mdn > Mo

부적편포(왜도<0, 오른쪽으로 치우침) 분포: M < Mdn < Mo


이 특성을 이용해 왜도를 계산하는 법을 Pearson이라는 사람이 고안함.


관련글 더보기

댓글 영역