[문헌정보통계] 5. 가설과 통계적 유의성 검증

Posted by 적분 ∫2tdt=t²+c
2016.06.09 03:04 수업노트

가설 검증

영가설(귀무가설, H0): 입증하고자하는 것과 반대되는 가설로, 대게 어떤것이 다른것과 차이가 없거나 유의미한 결과가 없다고 주장하는 가설. 통계학에서는 가설을 검증하기에 앞서 가장 먼저 영가설이 성립하다는 전제에서 출발하여, 이를 기각함으로써 대립가설이 옳다는 것을 검증하는 단계를 거친다.

대립가설(Hn): 입증하고자하는 가설. 대게 어떤 것이 다른 것과 차이가 존재한다거나 유의미한 결과가 존재한다는 주장.


영가설을 기각하기 위하여 유의수준(유의미한 수준)이라는 개념을 도입. 대게 연구에서는 전통적으로 p = 0.01(1%) 또는 0.05(5%)를 많이 사용한다. 즉 분포상에서 p보다 더 작은 확률로 일어날 상황이 발생했을 경우 그것이 정상적이지 않다고 보고 영가설을 기각하고 대립가설을 수용하는것.


두 집단 간의 차이 검증

두 집단이 동일한 집단의 부분 집단인지 아니면 상이한 집단인지를 검증하기 위해 사용함.

영가설로 평균 차이가 없다는 가설을 세우고, 두 집단의 분포 차이가 수용역을 벗어날 경우 두 집단이 상이하다는 결론을 내림.

두 변수 간의 관계 검증

두 변수 간의 관계가 있는지 없는지를 검증하기 위해 사용함.

영가설로 관계가 없다는 가설을 세우고, 두 변수 간의 상관 유의도가 수용역을 벗어날 경우 두 변수가 관계 있다는 결론을 내림.


통계적 검증의 단계

  1. 가설 설정과 진술
  2. 표본수와 검증 통계치의 결정
  3. 유의도의 설정. 대게 0.01(99% 신뢰수준) 또는 0.05(95% 신뢰수준)을 적용
  4. 자료의 수집과 검증 통계치의 계산
  5. 가설의 검증과 결과의 해석


가설과 유의도

통계적 검증은 언제나 영가설이 맞다는 전제에서 출발함.

기각역(region of rejection): 영가설을 기각하는 영역, 대립가설을 채택하는 영역

수용역(region of acceptance): 영가설이 맞는 것이라 수용하는 영역

유의수준(level of significance): 기각역과 수용역을 구분하는 기준. 대게 1%, 5%로 잡는다.


통계적 오류

확률적 판단이기 때문에 통계적 유의성 검증은 언제나 오류가 발생할 가능성이 있다. 이 때 오류는 2종류로 구분할 수 있다.

실제는 H0실제는 Hn
H0수용1-α(정확판단)β(2종오류)
Hn수용α(1종오류)1-β(정확판단)


1-α: 실제 변화가 없고, 변화가 없다고 결론내림

α: 변화가 없는데, 있다고 결론내림(영가설 기각)

β: 변화가 있는데, 없다고 결론내림(영가설 수용)

1-β: 실제 변화가 있고, 변화가 있다고 결론내림


새로 개발한 약물의 효능을 검증하는 예를 들자면, 1종오류는 약물의 효능이 없는데 있다고 잘못 판단하는 경우고, 2종오류는 약물의 효능이 있지만 없다고 판단하는 경우. 이때 1종오류는 효능이 없는 약을 효능이 있다고 판단해 판매나 기타 행동으로 옮기게 만들고, 2종오류는 효능이 있는 약을 효능이 없다고 판단해 다시 연구해서 더 높은 효능의 약을 만들도록 한다.

따라서 실제 사례에 적용될때 1종오류가 2종오류보다 더 파급력이 커서 위험할 수 있고, 그렇기 때문에 현장에서는 β는 늘어나더라도 α를 줄이고자하는 시도도 찾아볼 수 있다.


단측검증과 양측검증

단측검증: 한쪽만 검증하는것. 방향성 검증

예) 남자의 키가 여자의 키보다 클 것이다.

한쪽으로만 기각되는 것을 가정하면 되므로 그쪽 기각역의 넓이가 α가 됨.


양측검증: 양쪽을 모두 고려하는것. 비방향성 검증

예) 남자의 키가 여자의 키와 차이가 있을 것이다.

양쪽으로 기각되는 경우를 고려해야하므로, 한쪽 기각역의 넓이는 α/2가 됨.


저작자 표시 비영리 동일 조건 변경 허락
신고
이 댓글을 비밀 댓글로