상세 컨텐츠

본문 제목

[문헌정보통계] 8. t검정과 ANOVA, 사후검정

수업노트

by ∫2tdt=t²+c 2016. 6. 10. 23:40

본문

t검정

df = n-1 이 30보다 작을 경우를 소표본, 클 경우를 대표본이라고 함.

소표본의 경우 표본표준편차와 모표준편차의 차이가 커짐. 따라서 일반적인 z검정을 사용하기에 어렵기에 이에 대한 보정이 들어간 t검정을 사용해야함

범주형 자료가 연속형 자료에 어떤 차이를 주는지 검정하는데 사용됨. (범주->연속)

차이가 의미 있는 것(두 표본이 다른 모집단에서 나온것)인지 아닌지(두 표본이 같은 모집단에서 나온것)를 알아내는것

표본평균차이 검증

두 표본 X1, X2에 대해 다음과 같이 t값을 계산한다. (여기서 σ_diff는 두 평균차이에 대한 표준편차)

t = 0에 가까울수록 두 집단은 같은 모집단에서 나왔을 확률이 높다. => 영가설

σ_diff를 계산하는 방법은 두 표본이 독립적이냐 종속적이냐에 따라 달라진다.

표본이 서로 종속인 경우

두 표본이 서로 짝을 짓는 경우나 동일한 표본을 before/after 두 번 측정한 경우 등 두 표본이 서로 연관되어 있을 때 사용. 이때 두 표본의 크기는 동일할 수 밖에 없다. 이 때 t값은 다음과 같이 계산된다. (s_1, s_2는 각 집단의 표준편차, r은 두 집단의 상관계수)

위 그림처럼 t분포 역시 종 모양으로 나타난다. 단 자유도 df값에 따라 옆으로 퍼지는 정도가 달라진다. 만약 계산대로 구한 t값이 -2이고, 자유도는 9라고 하면, 유의수준 0.05에서 영가설을 기각하지 못한다. 따라서 이 경우 두 집단은 동일 집단이라고 봐야한다. 반대로 t값이 3이라면 기각역에 속하므로 두 집단은 다르다고 봐야한다.

두 표본이 종속인 경우 전개식의 간단한 증명.

표본이 서로 독립인 경우

두 표본집단이 서로 연관을 갖지 않는 경우 사용하며, 이 때 두 표본의 크기는 다를 수도 있다. 각 집단은 정규성 가정을 만족해야하며, 합동분산을 이용해 t값을 구하게 된다.

합동분산은 두 표본의 편차 제곱합을 모두 합하고, 두 표본의 자유도를 합한값으로 나누어 구하며, 식은 다음과 같게 된다.

마찬가지로 종속일 경우 사용했던 그래프처럼, 얻어진 t값이 수용역에 속하는지 기각역에 속하는지를 확인하여 차이를 검증하게 된다.

ANOVA(Analysis of Variance)

t검정은 두 집단 간의 차이를 검증하는데에만 사용이 가능함. 둘 이상의 독립 집단의 차이를 검증하기 위해서는 ANOVA를 사용해야함.

범주형 독립변수가 연속형 종속변수에 주는 영향을 확인하기 위해 사용가능한 검정 방법은 아래 표와 같음.

독립/종속독립변수의 집단수검정방법
종속2종속표본 t검정
독립2독립표본 t검정
3 이상ANOVA 검정


F값은 다음과 같은 방법으로 구해지며, t검정과 유사하게 얻은 F값이 수용역에 속하는지 기각역에 속하는지를 확인하여 영향 유무를 검증하게 된다. t검정과의 차이는 F값은 항상 양수로만 얻어지기에 양측이 아니라 단측검정을 실시하게 된다는것. (여기서 n은 전체 표본의 크기 총합, k는 표본집단의 수)

bg는 집단간, wg는 집단내를 뜻하며, SS는 편차의 제곱합, MS는 편차 제곱의 평균을 가리킨다.

M_g는 해당 표본집단의 평균, M_grand는 전체 평균을 가리킨다.

식에서 알 수 있듯이 F값은 MS_bg에 비례하고, MS_wg에 반비례한다. 즉 집단간 편차제곱합은 효과를 가리키고, 집단내 편차제곱합은 오차를 가리킨다고 볼수 있다. MS_wg를 줄이고, MS_bg를 키울수록 전체 F값을 키워 영향이 있음을 입증하기 쉬워진다. 효과계수는 다음과 같이 구할수 있다.


* ANOVA를 통해 둘 이상의 집단이 차이가 있음을 입증했다고 하더라도, 어떤 집단이 어떻게 차이가 있는지 세부적으로는 알 수 없으므로 사후검정을 실시해야한다.

사후검정

둘 이상의 집단 간의 차이를 검정할 경우, t검정을 여러번 사용하는 대신 ANOVA + 사후검정을 실시해야함. 확률적 검정은 유의수준을 바탕으로 해당 검정이 맞을 확률을 계산해내는데, 여러번 실시할 경우, 그 모든 검정이 맞을 확률이 작아지게 되고 유의수준이 변동되게 됨.

사후검정은 해당 표본의 모집단이 분산이 같은지 유무에 따라 실시 방법이 바뀌므로, 먼저 등분산 검정을 실시해야함.

Levene의 등분산 검정

유의확률이 0.05 이상: 등분산. 합동분산을 이용하여 계산

유의확률이 0.05 미만: 이분산

등분산 사후검정

  • Scheffe: 사회과학에서 주로 사용
  • Bonferroni: 사회과학에서 주로 사용
  • Duncan: 관대한 검정. 영가설 기각확률이 높음
  • Tukey: 엄격한 검정. 자연과학에서 주로 사용

이분산 사후검정

  • Dunnet의 C
  • Dunnet의 T3


관련글 더보기

댓글 영역