한국어 불용어 리스트 100개

Posted by 적분 ∫2tdt=t²+c
2017.01.10 02:11 그냥 공부

블로그 텍스트를 분석하는 과제를 하던 도중, 한국어 불용어를 제거해야할 일이 생겼어요. komoran으로 형태소 분석후에 어미나 조사는 싹 빼버렸지만, 명사/동사/형용사 등에서 불용어를 제거할 수 있는 좋은 방법이 없어서 웹을 검색했으나 원하는 리스트를 찾지 못했습니다. 그래서 그냥 가지고 태깅 한국어 코퍼스에서 고빈도어 상위 100개를 뽑아 불용어 리스트를 만들어 보았습니다.

utf-8 형태에 탭으로 구분된 파일입니다. 형태 / 품사태그 / 평균빈도 순으로 들어가 있고, 품사 태그는 세종 말뭉치 태그를 기준으로 합니다.

아마 주로 문어 코퍼스 비중이 높고, 구어나 인터넷의 가벼운 글들이 반영되지 않아서 블로그/댓글/SNS 불용어로 쓰기에는 약간 부적합할 수도 있다는 생각이 드는군요.


한국어불용어100.txt

형태 품사 비율 형태 품사 비율
VCP 0.01828 나오 VV 0.000725
VA 0.011699 가지 VV 0.00072
VV 0.009774 NNB 0.00071
NNB 0.009733 시키 XSV 0.000708
XSN 0.006898 만들 VV 0.000704
MM 0.005327 지금 NNG 0.0007
VV 0.003613 생각하 VV 0.000695
NNB 0.003474 그러 VV 0.000692
NP 0.003361 NNG 0.000685
VX 0.00331 하나 NR 0.000655
VX 0.002976 NNG 0.000649
VA 0.00292 VV 0.000648
NP 0.00269 모르 VV 0.000645
사람 NNG 0.002074 XSN 0.000643
VV 0.001885 NNB 0.000639
아니 VCN 0.001871 NNB 0.000636
NNB 0.001822 자신 NNG 0.000632
VA 0.001725 MAG 0.000626
우리 NP 0.001715 어떤 MM 0.000623
NNG 0.001686 NP 0.000622
NNB 0.001648 VV 0.000614
VV 0.001619 경우 NNG 0.000614
MM 0.001584 NNB 0.00061
VX 0.001538 생각 NNG 0.000587
대하 VV 0.001504 시간 NNG 0.000573
VV 0.001491 그녀 NP 0.000572
NNG 0.001322 다시 MAG 0.000556
NNG 0.00124 이런 MM 0.00055
그렇 VA 0.001232 NNG 0.000549
위하 VV 0.001171 보이 VV 0.000543
때문 NNB 0.001147 NNB 0.000543
그것 NP 0.001099 VX 0.000538
VV 0.001063 다른 MM 0.000536
말하 VV 0.001031 어떻 VA 0.000533
VV 0.000996 여자 NNG 0.000532
그러나 MAJ 0.000978 NNB 0.00053
VV 0.000924 NNG 0.000529
못하 VX 0.000905 VV 0.000515
NNB 0.00088 사실 NNG 0.000512
그런 MM 0.000879 이렇 VA 0.000512
MAG 0.000871 NNG 0.000508
문제 NNG 0.000824 VX 0.000505
MAG 0.000802 VX 0.000504
사회 NNG 0.000793 정도 NNG 0.000496
VA 0.000789 MAG 0.000493
그리고 MAJ 0.00078 NNB 0.000492
VA 0.000764 MAG 0.000491
VA 0.000759 통하 VV 0.000487
따르 VV 0.000738 소리 NNG 0.000486
NNB 0.000733 VX 0.000483


저작자 표시 비영리 동일 조건 변경 허락
신고
크리에이티브 커먼즈 라이선스
Creative Commons License
이 댓글을 비밀 댓글로

티스토리 툴바