[문헌정보통계] 0. 문헌정보와 통계

Posted by 적분 ∫2tdt=t²+c
2016.03.06 23:24 수업노트

감미아 교수님의 문헌정보통계 수업. 교수님이 바뀔줄 모르고 수강신청했었는데, 바뀐 교수님도 꽤나 좋으신거 같음.


0. 문헌정보와 통계

목표: 

* 문헌정보 분야에서 널리 활용하고 있는 통계기법을 배우고 이를 실질적으로 분석, 처리, 평가할 수 있는 능력을 기름

* 통계의 전반적인 개념에 대해 숙지하고, 익힌 개념과 관련된 실습을 통해 PC를 이용한 데이터 처리능력을 습득


(평소 수학을 좋아했지만, 통계학은 너무 응용스럽다=순수하지 못하다는 핑계로 멀리 했었습니다. 이번 기회에 처음으로 통계 공부를 해보게 되었군요! 사실 인문/사회과학에서 통계학은 매우매우 유용하게 널리 쓰이고 있죠, 다들 알게 모르게 사용해왔을겁니다. 저도 그랬을텐데 그동안 제대로된 이론적 배경없이 통계를 사용하다 보니 오류에 쉽게 빠지게 되는거 같아요. 이번 수업을 기회삼아 이론적 기초를 다지고 오류에서 자유로이 통계 기법을 사용하는 방법을 배우면 정말 좋을거 같다는 생각이 듬뿍 들었습니다!)


1) 인문/사회과학에서 잘못 이용되기 쉬운 통계


-심근경색으로 사망한 일본인의 95%이상이 이 음식을 먹었다.

-강도, 살인범의 70% 이상이 범행 전 24시간 이내 이 음식을 먹었다.

-일본인에게 섭취를 금지하면 정신적 스트레스를 조장한다.

-에도시대 이후 일본에서 발생한 폭동의 대부분은 이 음식이 원인이었다.


정답은 바로

입니다. 그렇죠. 사실 통계적으로 따지고 보면 맞는 말입니다. 거짓말은 하지 않았습니다. 그런데 마치 저렇게 사실을 뽑아놓으면, 이 음식이 굉장히 해롭거나, 중독성이 있는 듯한 물질로 묘사가 되는게 문제입니다. (비슷한 예시로 일산화이수소 이야기도 들수 있겠습니다.ㅎㅎ)


2) 독립변수와 종속변수

마찬가지로 가설을 세울때 쉽게 오류를 범할 수 있는 지점도 있습니다.


가설-도서관을 자주 이용하는 학생들은 학업성취도가 높을것이다?


얼핏보면 당연한 이야기 같지만, 면밀히 따져보면 복잡한 문제라는 것을 알 수 있죠.

전제- 도서관을 자주 이용한다 (독립변수)

: 부지런한 학생인 경우

: 학점을 올리고자 하는 열의가 있는 학생인 경우

: 책을 좋아하는 학생인 경우


결과- 학업성취도가 높다 (종속변수)

: 머리가 좋은 경우

: 성실한 경우

: 주변 환경이 좋은 경우


따라서 내재된 여러가지 독립변수가 여러가지 종속변수에 영향을 줘서 종합적으로 결과가 나타나는 것이기 때문에, 단순히 도서관을 자주 가는 것이 학업 성취도에 영향을 준다고 결론을 내리게 되면 오류가 될 수 있다는 것입니다.


3) 통계 자료에 사용되는 자료의 유형


1. 명목척도(Nominal): 구분을 위해 숫자를 부여한것. 숫자 그 이상의 의미를 지니지 않음.

예) 축구선수의 유니폼 번호 : 7번 선수가 13번 선수 보다 낫다던가 빠르다던가 등의 의미가 있는 게 아님


2. 서열척도(Ordinal) : 명목척도 + 숫자가 순위를 나타냄. 따라서 숫자로 서열을 측정가능.

예) 성적 등수: 1등이 2등보다 더 잘하는것, 29등도 30등보다 더 잘하는것. 하지만 1등 - 2등 사이의 차이를 29등 - 30등 사이의 차이와 비교할 수 없음.


3. 등간척도(Interval) : 서열척도 + 척도 단위가 등간. 범주 간 차이가 일정하여, 덧뺄셈이 가능함.

예) 온도: 5도와 10도의 차이는 5도, 15도와 20도의 차이도 5도. 하지만 5도보다 2배 따뜻한 온도와 같은 개념은 사용이 불가.


4. 비율척도(Ratio) : 등간척도 + 0이 존재. 범주 간 차이가 일정할 뿐만 아니라, 0점이 존재해, 비율연산도 가능함.

예) 길이, 무게, 소득, 자녀수


정성적 데이터(=범주형, 비수량적 데이터) : 1, 2번

정량적 데이터(=연속형, 수량적 데이터) : 3, 4번


정성적 데이터 분석 방법: 빈도분석, 카이제곱 분석 (+서열척도는 t-test, ANOVA 사용가능)

정량적 데이터 분석 방법: 기술통계, t-test, ANOVA, 회귀분석, 상관관계분석


변수 종류별 사용하는 분석방법

 종속변수

 독립변수

 인자(Parameter)

 수준(Degree)

 분석방법

 정성적 데이터

 정성적 데이터

 -

 -

 빈도분석, 카이제곱

 정량적 데이터

 -

 -

 로지스틱 회귀분석

 정량적 데이터

 정성적 데이터

 1개

 2단계

 T-test

 3단계 이상

 ANOVA

 2개 이상

 -

 정량적 데이터

 독립-종속변수: 상관관계

 - 상관분석
 독립-종속변수: 설명, 예측관계 - 회귀분석


통계를 사용하는 이유

불완전성에 직면하였을 때 합리적인 의사결정을 내리기 위해

신뢰수준과 오차범위를 활용하여 보다 안전한 선택을 하기 위해


통계학적 기법의 기능

1. 기술: 많은 자료를 체계화함으로써 이해하기 쉬운 형태로 요약 기술

2. 예측: 관찰한 소수에서 얻은 결과를 기초로 관찰하지 않은 전체 현상에 대한 일반적 결론을 도출


통계 용어

모집단: 관심 대상 전체 집단 μ

모수: 모집단의 특성을 수치로 표현한 것 σ

표본: 모집단의 특성을 파악하기 위해 모집단에서 수집한 자료 x

통계량: 표본이 특성을 수치로 표현한 것 s

표집분포: 표본평균치들의 확률적 분포, 표본평균의 분포


기술통계(Descriptive statistics): 통계량과 모수의 속성을 기술

단순 표본에 대한 설명, 분포, 집중경향, 산포도 분석

추리통계(Inferential statistics): 표본자료에 내포된 정보를 분석하여 관찰하지 않은 모집단 모수를 추정

모집단의 특성을 유추, T-test, ANOVA


변수(Variable): 질적변수(숫자로 표현되지 않는 변수), 양적변수(숫자로 표현되는 변수),

양적변수는 두 가지로 분류할 수 있음: 연속변수(주어진 범위내 어떠한 값도 가질 수 있는 변수), 이산변수(특정 수치만을 가지는 변수)

이 댓글을 비밀 댓글로