[문헌정보통계] 9. 회귀분석

Posted by 적분 ∫2tdt=t²+c
2016.06.11 01:03 수업노트

회귀분석(Regression)

상관관계가 두 변수간의 선형관계를 조사한다면, 회귀분석은 인과관계를 분석한다.

수식을 도출하여 예측을 가능하게 함.

독립변수: 예측변수. 현재의 데이터나 얻기 쉬운 데이터

종속변수: 기준변수. 미래의 데이터나 얻기 어려운 데이터

얻기 쉬운 데이터를 독립변수로 설정하여, 얻기 어려운 데이터를 추정할 수 있음.


단순회귀분석: 독립변수가 하나인 경우

다중회귀분석: 독립변수가 여러 개인 경우


독립변수 X와 종속변수 Y가 주어졌을때 다음과 같이 기울기와 y절편을 구할 수 있다.

b는 기울기, a는 y절편이다. 이럴때 X와 Y의 관계는 다음과 같은 선형식으로 예측이 가능하다.

위 그래프에서 파란점들이 X,Y로 측정된 값들이라고 할때, X의 평균과 Y의 평균은 빨간 선처럼 구해진다. 이를 바탕으로 X, Y의 공분산 합을 X 편차 제곱합으로 나누면 기울기 b를 얻을 수 있고, 이를 바탕으로 a값도 구할 수 있다.


단순회귀분석에서 결정계수는 다음과 같이 주어진다. 이 값은 위 그래프에서 연두색으로 된 선길이들의 제곱합을 노랑색으로 된 선길이들의 제곱합으로 나눈것과 같다.

이때 R^2은 0~1 사이의 값을 가지며, 종속변수의 분산 중 몇 %가 독립변수에 의해 설명되는지를 나타낸다. 이 값의 제곱근인 R값은 상관계수와 같다.

유의성 검증

ANOVA의 유의성 검증과 유사하게 F값을 이용한다. F값은 다음과 같이 계산된다. (여기서 n은 표본의 크기, k는 독립변수의 수이다)


저작자 표시 비영리 동일 조건 변경 허락
신고
이 댓글을 비밀 댓글로