[문헌정보통계] 9. 회귀분석

Posted by 적분 ∫2tdt=t²+c
2016.06.11 01:03 수업노트

회귀분석(Regression)

상관관계가 두 변수간의 선형관계를 조사한다면, 회귀분석은 인과관계를 분석한다.

수식을 도출하여 예측을 가능하게 함.

독립변수: 예측변수. 현재의 데이터나 얻기 쉬운 데이터

종속변수: 기준변수. 미래의 데이터나 얻기 어려운 데이터

얻기 쉬운 데이터를 독립변수로 설정하여, 얻기 어려운 데이터를 추정할 수 있음.


단순회귀분석: 독립변수가 하나인 경우

다중회귀분석: 독립변수가 여러 개인 경우


독립변수 X와 종속변수 Y가 주어졌을때 다음과 같이 기울기와 y절편을 구할 수 있다.

b는 기울기, a는 y절편이다. 이럴때 X와 Y의 관계는 다음과 같은 선형식으로 예측이 가능하다.

위 그래프에서 파란점들이 X,Y로 측정된 값들이라고 할때, X의 평균과 Y의 평균은 빨간 선처럼 구해진다. 이를 바탕으로 X, Y의 공분산 합을 X 편차 제곱합으로 나누면 기울기 b를 얻을 수 있고, 이를 바탕으로 a값도 구할 수 있다.


단순회귀분석에서 결정계수는 다음과 같이 주어진다. 이 값은 위 그래프에서 연두색으로 된 선길이들의 제곱합을 노랑색으로 된 선길이들의 제곱합으로 나눈것과 같다.

이때 R^2은 0~1 사이의 값을 가지며, 종속변수의 분산 중 몇 %가 독립변수에 의해 설명되는지를 나타낸다. 이 값의 제곱근인 R값은 상관계수와 같다.

유의성 검증

ANOVA의 유의성 검증과 유사하게 F값을 이용한다. F값은 다음과 같이 계산된다. (여기서 n은 표본의 크기, k는 독립변수의 수이다)


이 댓글을 비밀 댓글로