빈도분석 프로그램 Counter

프로그래밍

by ∫2tdt=t²+c 2013. 10. 15. 23:30

국어정보학 수업시간에 받은 counter 프로그램을 확장해서

문맥주석코퍼스에서 연어의 빈도를 조사할수있는 기능까지 포함한 프로그람을 개발해봤어요.

단순 카운팅이니깐 코딩이 엄청 어려운것도 아니라서 어제 새벽 몇 시간 동안 짰더니 완성됐네요.

CounterPP.exe

CounterPP_XP.exe

(XP유저는 CounterPP_XP.exe를, 비스타 이상 유저는 CounterPP.exe 를 쓰시면 됩니다.)

사용방법은 counter와 유사합니다.

명령행 인수로 실행할 수도 있고, 아니면 프로그램을 단독으로 실행해서 작동시킬 수도 있어요.

프로그램의 기능:

-CSV(탭으로 필드가 구분되고, 줄바꿈으로 행이 구분되는 텍스트 파일)을 입력으로 받아서, 조건에 일치하는 행을 찾아냅니다.

-찾아낸 행에서 특정한 필드를 선택하여 단어를 수를 셀 수도 있고, 아니면 찾아낸 행의 다음행 혹은 이전 행에서 필드를 선택하여 단어 수를 셀 수도 있습니다.

-단어는 스페이스와 로 구분합니다.

-빈도 분석을 끝낸 결과는 [단어]\t[횟수]으로 빈도순으로 정렬하여 출력해줍니다.

명령행 인수 설명

-i : 입력 파일명입니다.

-o : 출력 파일명입니다.

-c : 조건입니다. 뒤에 필드번호와 정규식이 나옵니다. 여러 개 사용가능하며 각 조건들은 and로 연결됩니다.

(예시)

-c 2 ^눈물이$

두 번째 필드가 "눈물이"와 정확하게 일치하는 행만을 골라냅니다.

-c 2 눈물 -c 3 /JK

두 번째 필드에 "눈물"이 포함되고, 세번째 필드에 "/JK"가 포함되는 행만을 골라냅니다.

-s : 빈도분석의 대상이 될 행의 오프셋입니다. 만약 조건에 일치하는 행 내부에서 빈도분석을 하려한다면 이 옵션을 생략하거나 0의 값을 주면 됩니다. 다음 행의 빈도를 분석하려면 1, 이전 행의 빈도를 분석하려면 -1의 값을 주면 됩니다. n줄 뒤의 행을 분석하려면 n의 값을 주면 되겠죠.

-f : 단어의 빈도를 분석할 필드의 번호입니다.

*필드번호는 1번부터 시작합니다. 0이나 음수 입력하면 에러뜹니다.

문맥색인 주석코퍼스를 가지고 있다면 연어의 빈도를 분석하는데 다음과 같이 프로그램을 이용할 수 있어요!

예시1. "눈물이" 뒤에 나오는 형태소의 빈도를 분석하고자 할 경우

CounterPP -i 한국어말뭉치.txt -o 눈물이빈도.txt -c 2 ^눈물이$ -s 1 -f 3

예시2. "흘리다" 앞에 나오는 단어의 빈도를 분석하고자 할 경우

CounterPP -i 한국어말뭉치.txt -o 흘리다빈도.txt -c 3 ^흘리다 -s -1 -f 2

'프로그래밍' 카테고리의 다른 글

페이스북 연동 웹어플리케이션 만들때 주의사항 좋아요b (2)	2014.03.23
JSP로 페이스북과 연동하기! (2)	2013.12.09
빈도분석 프로그램 Counter Win (윈도우버전) (0)	2013.11.17
[c/c ] [WinAPI] 컴퓨터 각종 부품 정보 알아내기 (0)	2013.10.08
예전에 정리해둔 자바 vs C (2)	2013.09.10
[파이썬] 로마숫자를 10진수 정수로 변환하기 (0)	2012.10.23

글쓴이 ∫2tdt=t²+c

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

방문자

오늘

어제

전체

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

나의 큰 O는 log x야

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

'프로그래밍' 카테고리의 다른 글

관련글 더보기

댓글 영역

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

댓글

태그

방문자

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역