[문헌정보통계] 1. 빈도와 그래프

Posted by 적분 ∫2tdt=t²+c
2016.03.16 17:55 수업노트

변수와 상수, 측정치

y = ax + b

x: 독립변수, y: 종속변수, a,b: 상수

x_1, x_2, x_3 x의 관찰치(측정치)


합의 기호

Σ : 자명하므로 설명생략


질적 자료(정성적 자료)의 기술

그래프 방법: 시각적 제시, 직관적인 호소력, 이해하기 쉬움 / 엄밀하지 못함, 후속통계적 처리와 연결 불가

- 막대도표

- 파이도표

- 시계열 그래프

수치적 방법: 수치를 이용한 자료 조직화


양적 자료(정량적 자료)의 기술

수치적 방법: 빈도 분포표 사용

- 원 자료(raw data): 어떠한 의미도 주지 못하며, 보기에도 어려움

67, 70, 72, 62, 78, 71, 61, 85, 82, 82 ...


- 단순빈도분포: 각 점수에 해당하는 사례 수를 정리해서 적은것

 점수

 빈도

 97

 1

 96

 0

 95

 1

 94

 1

 ... ...


- 묶음빈도분포: 단순빈도분포에서 나아가서, 구간을 정해 묶어서 빈도를 적은것

 점수

 빈도

 90~99

 8

 80~89

 20

 70~79

 14

 60~69

 8

 합계

 50

급간(interval): 묶음자료에서 전체를 구성하고 있는 각 점수 사이의 간격

위의 예에서는 10

대체로는 홀수로 정함(중간점이 정수가 되게하고자함)


Sturges의 급간수 결정 기준

N은 자료수, h는 급간수


표현한계: 60(표현하한계)~69(표현상한계)

표현한계 상으로는 60 <= x <= 69의 범위의 x가 60~69 급간에 들어감. 이렇게 될 경우 급간과 급간 사이의 69.1 등의 수는 포함되지 않음 -> 연속성 결여

정확한계: 59.5(정확하한계)~69.5(정확상한계)

정확한계를 따르면 59.5 <= x < 69.5 범위의 x를 60~69 급간에 배정. 반올림해서 60~69에 들어가는 모든 수를 포함. 오차 존재를 고려하고, 연속성 회복

* 그래프는 정확한계를 바탕으로 그림

중간점(midpoint) = (표현하한계 + 표현상한계) / 2 = (정확하한계 + 정확상한계) / 2

급간의 크기(interval size) = (정확상한계 - 정확하한계) = (표현상한계 - 표현하한계 + 1)

빈도(frequency): 급간에 포함되는 사례수

사례수(N): 전체 사례의 수


- 누적빈도분포(cumulative frequency distribution): 제일 밑의 급간으로부터 상한계 아래의 모든 빈도를 더해 적은것

 점수

 누적빈도

 90~99

 50

 80~89

 42

 70~79

 22

 60~69

 8

 

 N=50

가장 최상위의 급간의 누적빈도는 전체 사례수와 같음


그래프 방법:

-막대도표: 높이가 중요, 항목 사이에 간격이 있고, 막대의 폭이 지니는 의미가 없음. 범주형 자료에서 사용

-히스토그램: 넓이(높이*폭)가 중요, 항목 사이에 간격이 없고, 폭이 지니는 의미가 있음. 연속형 자료에서 사용

-선 도표: 막대도표와 유사하지만 급간의 자료들이 중위수에 몰려있다고 가정하고 그린 꺾은선그래프. 최하급간 아래쪽과 최상급간 위쪽에서 X축과 만남

-누적빈도 도표: X축 정확상한계, Y축은 해당 정확상한계 이하인 값의 개수. 중앙에 사례가 몰릴 경우 S자 모양의 곡선이 됨(Ogive Curve)

-줄기-잎 그래프: 구간별 산재된 관측치들의 세부적인 값까지 알수 있으나 / 관측치의 숫자가 많을 경우 그리기 불편

-박스플롯: 최소값, 최대값, 중앙값, Q1(1/4지점), Q3(3/4지점)을 모두 표현하는 그래프.

-산점도: 점을 찍어 두 변수 사이의 상관관계를 보여주는 그래프.


그래프 용어

왜도(Skewness): 곡선의 치우친 정도. 음수일수록 오른쪽, 양수일수록 왼쪽에 치우침

첨도(Kurtosis): 곡선의 납작/뾰족한 정도. 음수일수록 납작, 양수일수록 뾰족함


그래프 자료의 오용

축 길이나 척도를 왜곡하여, 같은 정보를 달리보이게 할 수 있음

이 댓글을 비밀 댓글로