한국어 불용어 리스트 100개

그냥 공부

by ∫2tdt=t²+c 2017. 1. 10. 02:11

블로그 텍스트를 분석하는 과제를 하던 도중, 한국어 불용어를 제거해야할 일이 생겼어요. komoran으로 형태소 분석후에 어미나 조사는 싹 빼버렸지만, 명사/동사/형용사 등에서 불용어를 제거할 수 있는 좋은 방법이 없어서 웹을 검색했으나 원하는 리스트를 찾지 못했습니다. 그래서 그냥 가지고 태깅 한국어 코퍼스에서 고빈도어 상위 100개를 뽑아 불용어 리스트를 만들어 보았습니다.

utf-8 형태에 탭으로 구분된 파일입니다. 형태 / 품사태그 / 평균빈도 순으로 들어가 있고, 품사 태그는 세종 말뭉치 태그를 기준으로 합니다.

아마 주로 문어 코퍼스 비중이 높고, 구어나 인터넷의 가벼운 글들이 반영되지 않아서 블로그/댓글/SNS 불용어로 쓰기에는 약간 부적합할 수도 있다는 생각이 드는군요.

한국어불용어100.txt

형태	품사	비율	형태	품사	비율
이	VCP	0.01828	나오	VV	0.000725
있	VA	0.011699	가지	VV	0.00072
하	VV	0.009774	씨	NNB	0.00071
것	NNB	0.009733	시키	XSV	0.000708
들	XSN	0.006898	만들	VV	0.000704
그	MM	0.005327	지금	NNG	0.0007
되	VV	0.003613	생각하	VV	0.000695
수	NNB	0.003474	그러	VV	0.000692
이	NP	0.003361	속	NNG	0.000685
보	VX	0.00331	하나	NR	0.000655
않	VX	0.002976	집	NNG	0.000649
없	VA	0.00292	살	VV	0.000648
나	NP	0.00269	모르	VV	0.000645
사람	NNG	0.002074	적	XSN	0.000643
주	VV	0.001885	월	NNB	0.000639
아니	VCN	0.001871	데	NNB	0.000636
등	NNB	0.001822	자신	NNG	0.000632
같	VA	0.001725	안	MAG	0.000626
우리	NP	0.001715	어떤	MM	0.000623
때	NNG	0.001686	내	NP	0.000622
년	NNB	0.001648	내	VV	0.000614
가	VV	0.001619	경우	NNG	0.000614
한	MM	0.001584	명	NNB	0.00061
지	VX	0.001538	생각	NNG	0.000587
대하	VV	0.001504	시간	NNG	0.000573
오	VV	0.001491	그녀	NP	0.000572
말	NNG	0.001322	다시	MAG	0.000556
일	NNG	0.00124	이런	MM	0.00055
그렇	VA	0.001232	앞	NNG	0.000549
위하	VV	0.001171	보이	VV	0.000543
때문	NNB	0.001147	번	NNB	0.000543
그것	NP	0.001099	나	VX	0.000538
두	VV	0.001063	다른	MM	0.000536
말하	VV	0.001031	어떻	VA	0.000533
알	VV	0.000996	여자	NNG	0.000532
그러나	MAJ	0.000978	개	NNB	0.00053
받	VV	0.000924	전	NNG	0.000529
못하	VX	0.000905	들	VV	0.000515
일	NNB	0.00088	사실	NNG	0.000512
그런	MM	0.000879	이렇	VA	0.000512
또	MAG	0.000871	점	NNG	0.000508
문제	NNG	0.000824	싶	VX	0.000505
더	MAG	0.000802	말	VX	0.000504
사회	NNG	0.000793	정도	NNG	0.000496
많	VA	0.000789	좀	MAG	0.000493
그리고	MAJ	0.00078	원	NNB	0.000492
좋	VA	0.000764	잘	MAG	0.000491
크	VA	0.000759	통하	VV	0.000487
따르	VV	0.000738	소리	NNG	0.000486
중	NNB	0.000733	놓	VX	0.000483

저작자표시 비영리 동일조건

'그냥 공부' 카테고리의 다른 글

TextRank 기법을 이용한 핵심 어구 추출 및 텍스트 요약 (14)	2017.02.20
통계 + 의미론적 방법을 이용한 짧은 텍스트 간 유사도 산출 (3)	2017.02.09
코퍼스를 이용하여 단어 세부 의미 분별하기 (0)	2017.02.07
상호정보량(Mutual Information) (7)	2017.01.18
Word2Vec을 이용한 한국어 관련어 추출과 평가 (3)	2017.01.15
단순 공기어 통계 vs Word2Vec를 이용한 관련어 추출 (0)	2016.12.09

글쓴이 ∫2tdt=t²+c

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

방문자

오늘

어제

전체

나의 큰 O는 log x야

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

'그냥 공부' 카테고리의 다른 글

관련글 더보기

댓글 영역

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

댓글

태그

방문자

티스토리툴바