PHP로 짠 형태소 분석기 프로그램을 C++로 고친 이야기
몇 개월 전에 살아있는 라틴어 홈페이지에 형태소 분석기 서비스가 추가되었습니다. 원리는 뭐 복잡한거 없이 지금까지 구축한 라틴어 코퍼스에서 격별, 성별, 수별 전이확률(어떤 격 뒤에는 어떤 격이 올 확률이 높은가, 어떤 동사 주변에는 어떤 격이 올 확률이 높은가, 어떤 전치사 뒤에는 어떤 격이 올 확률이 높은가 등)을 조건부 확률 계산식을 이용해서 계산하는 겁니다. 그래서 가장 확률 높은 성/수/격 요소를 추천해주는 거죠.코드가 복잡하지 않다고 생각해서 그 때 PHP로 약 340줄 코딩해서 형태소 분석기를 작성했었습니다. (각 상태별 전이확률은 MariaDB에 저장되어있고, 쿼리를 날려서 가져오는 형태)문제는 이렇게 후딱 코딩을 끝내고 나니 1. 굉장히 느리고, 2. 굉장히 메모리를 많이 먹었습니다. 약..
프로그래밍
2016. 11. 14. 03:23