상관관계가 두 변수간의 선형관계를 조사한다면, 회귀분석은 인과관계를 분석한다.
수식을 도출하여 예측을 가능하게 함.
독립변수: 예측변수. 현재의 데이터나 얻기 쉬운 데이터
종속변수: 기준변수. 미래의 데이터나 얻기 어려운 데이터
얻기 쉬운 데이터를 독립변수로 설정하여, 얻기 어려운 데이터를 추정할 수 있음.
단순회귀분석: 독립변수가 하나인 경우
다중회귀분석: 독립변수가 여러 개인 경우
독립변수 X와 종속변수 Y가 주어졌을때 다음과 같이 기울기와 y절편을 구할 수 있다.
b는 기울기, a는 y절편이다. 이럴때 X와 Y의 관계는 다음과 같은 선형식으로 예측이 가능하다.
위 그래프에서 파란점들이 X,Y로 측정된 값들이라고 할때, X의 평균과 Y의 평균은 빨간 선처럼 구해진다. 이를 바탕으로 X, Y의 공분산 합을 X 편차 제곱합으로 나누면 기울기 b를 얻을 수 있고, 이를 바탕으로 a값도 구할 수 있다.
단순회귀분석에서 결정계수는 다음과 같이 주어진다. 이 값은 위 그래프에서 연두색으로 된 선길이들의 제곱합을 노랑색으로 된 선길이들의 제곱합으로 나눈것과 같다.
이때 R^2은 0~1 사이의 값을 가지며, 종속변수의 분산 중 몇 %가 독립변수에 의해 설명되는지를 나타낸다. 이 값의 제곱근인 R값은 상관계수와 같다.
ANOVA의 유의성 검증과 유사하게 F값을 이용한다. F값은 다음과 같이 계산된다. (여기서 n은 표본의 크기, k는 독립변수의 수이다)
[고고학연구법] 고고학사, 발굴, 연대측정 (0) | 2016.10.20 |
---|---|
[문헌정보학입문] 시각화자료 (0) | 2016.06.11 |
[문헌정보통계] 10. 카이제곱 검정 (2) | 2016.06.11 |
[문헌정보통계] 8. t검정과 ANOVA, 사후검정 (1) | 2016.06.10 |
자료분류표의 유형별 구분 (0) | 2016.06.10 |
현대 자료분류법 비교 (0) | 2016.06.10 |
댓글 영역