블로그 텍스트를 분석하는 과제를 하던 도중, 한국어 불용어를 제거해야할 일이 생겼어요. komoran으로 형태소 분석후에 어미나 조사는 싹 빼버렸지만, 명사/동사/형용사 등에서 불용어를 제거할 수 있는 좋은 방법이 없어서 웹을 검색했으나 원하는 리스트를 찾지 못했습니다. 그래서 그냥 가지고 태깅 한국어 코퍼스에서 고빈도어 상위 100개를 뽑아 불용어 리스트를 만들어 보았습니다.
utf-8 형태에 탭으로 구분된 파일입니다. 형태 / 품사태그 / 평균빈도 순으로 들어가 있고, 품사 태그는 세종 말뭉치 태그를 기준으로 합니다.
아마 주로 문어 코퍼스 비중이 높고, 구어나 인터넷의 가벼운 글들이 반영되지 않아서 블로그/댓글/SNS 불용어로 쓰기에는 약간 부적합할 수도 있다는 생각이 드는군요.
형태 | 품사 | 비율 | 형태 | 품사 | 비율 | |
---|---|---|---|---|---|---|
이 | VCP | 0.01828 | 나오 | VV | 0.000725 | |
있 | VA | 0.011699 | 가지 | VV | 0.00072 | |
하 | VV | 0.009774 | 씨 | NNB | 0.00071 | |
것 | NNB | 0.009733 | 시키 | XSV | 0.000708 | |
들 | XSN | 0.006898 | 만들 | VV | 0.000704 | |
그 | MM | 0.005327 | 지금 | NNG | 0.0007 | |
되 | VV | 0.003613 | 생각하 | VV | 0.000695 | |
수 | NNB | 0.003474 | 그러 | VV | 0.000692 | |
이 | NP | 0.003361 | 속 | NNG | 0.000685 | |
보 | VX | 0.00331 | 하나 | NR | 0.000655 | |
않 | VX | 0.002976 | 집 | NNG | 0.000649 | |
없 | VA | 0.00292 | 살 | VV | 0.000648 | |
나 | NP | 0.00269 | 모르 | VV | 0.000645 | |
사람 | NNG | 0.002074 | 적 | XSN | 0.000643 | |
주 | VV | 0.001885 | 월 | NNB | 0.000639 | |
아니 | VCN | 0.001871 | 데 | NNB | 0.000636 | |
등 | NNB | 0.001822 | 자신 | NNG | 0.000632 | |
같 | VA | 0.001725 | 안 | MAG | 0.000626 | |
우리 | NP | 0.001715 | 어떤 | MM | 0.000623 | |
때 | NNG | 0.001686 | 내 | NP | 0.000622 | |
년 | NNB | 0.001648 | 내 | VV | 0.000614 | |
가 | VV | 0.001619 | 경우 | NNG | 0.000614 | |
한 | MM | 0.001584 | 명 | NNB | 0.00061 | |
지 | VX | 0.001538 | 생각 | NNG | 0.000587 | |
대하 | VV | 0.001504 | 시간 | NNG | 0.000573 | |
오 | VV | 0.001491 | 그녀 | NP | 0.000572 | |
말 | NNG | 0.001322 | 다시 | MAG | 0.000556 | |
일 | NNG | 0.00124 | 이런 | MM | 0.00055 | |
그렇 | VA | 0.001232 | 앞 | NNG | 0.000549 | |
위하 | VV | 0.001171 | 보이 | VV | 0.000543 | |
때문 | NNB | 0.001147 | 번 | NNB | 0.000543 | |
그것 | NP | 0.001099 | 나 | VX | 0.000538 | |
두 | VV | 0.001063 | 다른 | MM | 0.000536 | |
말하 | VV | 0.001031 | 어떻 | VA | 0.000533 | |
알 | VV | 0.000996 | 여자 | NNG | 0.000532 | |
그러나 | MAJ | 0.000978 | 개 | NNB | 0.00053 | |
받 | VV | 0.000924 | 전 | NNG | 0.000529 | |
못하 | VX | 0.000905 | 들 | VV | 0.000515 | |
일 | NNB | 0.00088 | 사실 | NNG | 0.000512 | |
그런 | MM | 0.000879 | 이렇 | VA | 0.000512 | |
또 | MAG | 0.000871 | 점 | NNG | 0.000508 | |
문제 | NNG | 0.000824 | 싶 | VX | 0.000505 | |
더 | MAG | 0.000802 | 말 | VX | 0.000504 | |
사회 | NNG | 0.000793 | 정도 | NNG | 0.000496 | |
많 | VA | 0.000789 | 좀 | MAG | 0.000493 | |
그리고 | MAJ | 0.00078 | 원 | NNB | 0.000492 | |
좋 | VA | 0.000764 | 잘 | MAG | 0.000491 | |
크 | VA | 0.000759 | 통하 | VV | 0.000487 | |
따르 | VV | 0.000738 | 소리 | NNG | 0.000486 | |
중 | NNB | 0.000733 | 놓 | VX | 0.000483 |
TextRank 기법을 이용한 핵심 어구 추출 및 텍스트 요약 (14) | 2017.02.20 |
---|---|
통계 + 의미론적 방법을 이용한 짧은 텍스트 간 유사도 산출 (3) | 2017.02.09 |
코퍼스를 이용하여 단어 세부 의미 분별하기 (0) | 2017.02.07 |
상호정보량(Mutual Information) (7) | 2017.01.18 |
Word2Vec을 이용한 한국어 관련어 추출과 평가 (3) | 2017.01.15 |
단순 공기어 통계 vs Word2Vec를 이용한 관련어 추출 (0) | 2016.12.09 |
댓글 영역