php-detectLang 공개 및 다운로드

Posted by 적분 ∫2tdt=t²+c
2016.05.09 23:23 프로그래밍

전에 작업했었던 언어 식별기(2016/04/28 - [프로그래밍] - [PHP + MySQL] 언어 식별기(Language Detection) 개발기) 코드를 정비해서 드디어 공개할 수 있게 되었습니다. PHP+MySQL 환경을 이용하시는 분이라면 누구나 쉽고 유용하게 쓰길바라며..!


저는 기존에 있던 Latin Mini Crawler에 이 기능을 붙여서 언어 식별 기능을 강화했습니다. 기존 크롤러가 라틴어인데 라틴어가 아니라고 판단하고 지나친 텍스트들과 라틴어가 아닌데 라틴어라고 판단해서 잘못 수집한 텍스트들을 정정하는데 큰 도움이 될거라는 생각에 벌써부터 마음이 부푸는군요!


다 좋은 라이브러리인데 문제는 용량입니다. Basic Set(약 70여 개의 주요 언어 포함)의 경우 7.33MB, Advanced Set(약 200여 개의 대다수 언어 포함)의 경우는 22.6MB가 필요합니다. Trigram 세트 중에 불필요한 부분을 날려버리면 더 용량 다이어트가 가능할듯 싶은데, 그 경우에 대해서는 아직 성능검증이 이루어지지 않아서 조심스럽습니다.


큰 용량이라 블로그에 올리기도 뭣하고 해서 GitHub계정을 파고 거기에 한번 올려보았습니다. 설치방법과 사용방법도 README.md에 친절하게 영어로 써두었어요.

https://github.com/bab2min/php-detectLang


버그나 기타 문의사항이 있으면 블로그, 메일 등으로 언제든지 연락주세요!

Tags
이 댓글을 비밀 댓글로