Kneser-Ney 언어 모형을 활용한 한국어 초성체 해석기 개발
사실 초성체 해석기에 대한 생각은 말년 병장 때 할일 없어서 처음 떠올렸었습니다. 세종 말뭉치 통계 자료가 때마침 있었고, (사지방 시간도 꽤 있었고) PHP를 굴릴 수 있는 웹 서버도 하나 가지고 있었기에, 간단하게 단어의 초성을 추출해서 P(단어 | 초성) 을 계산하는 방식을 선택하기로 했죠. 각각의 단어가 다 독립이므로, 문장을 추론하는데에는 하나도 도움이 안되는 단순 멍청한 모델이었다고 할 수 있겠죠. (열악한 환경에서 하루만에 만드려니 어쩔수 없었다고 변명을 대어봅니다.) 최근 Modified Kneser Ney Smoothing을 적용한 N-gram Language Model를 공부하면서 이를 초성체 해석에 사용할 수 있다는 걸 깨달았습니다. 시험 삼아 초성체를 해독하는 도구를 짜보았는데, 이..
프로그래밍/NLP
2018. 6. 17. 03:01