전에 작업했었던 언어 식별기(2016/04/28 - [프로그래밍] - [PHP + MySQL] 언어 식별기(Language Detection) 개발기) 코드를 정비해서 드디어 공개할 수 있게 되었습니다. PHP+MySQL 환경을 이용하시는 분이라면 누구나 쉽고 유용하게 쓰길바라며..!
저는 기존에 있던 Latin Mini Crawler에 이 기능을 붙여서 언어 식별 기능을 강화했습니다. 기존 크롤러가 라틴어인데 라틴어가 아니라고 판단하고 지나친 텍스트들과 라틴어가 아닌데 라틴어라고 판단해서 잘못 수집한 텍스트들을 정정하는데 큰 도움이 될거라는 생각에 벌써부터 마음이 부푸는군요!
다 좋은 라이브러리인데 문제는 용량입니다. Basic Set(약 70여 개의 주요 언어 포함)의 경우 7.33MB, Advanced Set(약 200여 개의 대다수 언어 포함)의 경우는 22.6MB가 필요합니다. Trigram 세트 중에 불필요한 부분을 날려버리면 더 용량 다이어트가 가능할듯 싶은데, 그 경우에 대해서는 아직 성능검증이 이루어지지 않아서 조심스럽습니다.
큰 용량이라 블로그에 올리기도 뭣하고 해서 GitHub계정을 파고 거기에 한번 올려보았습니다. 설치방법과 사용방법도 README.md에 친절하게 영어로 써두었어요.
https://github.com/bab2min/php-detectLang
버그나 기타 문의사항이 있으면 블로그, 메일 등으로 언제든지 연락주세요!
가버변환 소스코드 (0) | 2016.07.26 |
---|---|
[KorpuSQL] 클릭만으로 간편하게 코퍼스 구축하기 (1) | 2016.06.18 |
티스토리API를 이용하여 글 일괄 수정하기 (2) | 2016.06.12 |
[PHP + MySQL] 언어 식별기(Language Detection) 개발기 (0) | 2016.04.28 |
코퍼스 분석용 SQL도구 KorpuSQL 개발! (3) | 2016.01.27 |
MorPHP를 통한 한국어 동사 변화 규칙 서술 (0) | 2015.12.22 |
댓글 영역