상세 컨텐츠

본문 제목

라틴어 사전 2차 패치

적분史

by ∫2tdt=t²+c 2015. 4. 11. 02:34

본문



몇달 사이에 생각보다 많은 사항을 업그레이드했습니다. 저번 휴가 복귀 직전에 혹시나 하는 마음에 서버쪽에 PHP코드를 수정할 수 있는 PHP파일을 하나 올려두었습니다. 보안상으로는 심각한 위험이 있는 방법이었지만, 페이지에서 버그가 발견되었을대 부대 내 사지방에서 조치할 방법이 없을테니 만약을 대비해서 만들어둔 지푸라기 같은 녀석이었습니다. 그런대 이를 이용해서 더 발전된 코드 수정 페이지를 작성하고, 그 페이지를 바탕으로 사전과 홈페이지 모듈을 손보게 되면서 다음 휴가 전까지는 불가능할거라고 여기던 작업들을 해내게 되었습니다. 이야호!


레이아웃 상 눈에 띄는 변화는 반응형 스킨 적용입니다. 살아있는 헬라어 페이지를 만들면서 시험 적용해보았는데 생각보다 괜찮아서 살아있는 라틴어 홈페이지에도 적용하게 되었습니다. 덕분에 잠시나마 반응형 웹 디자인 공부도 할 수 있었네요. 

사전 기능 상의 강화도 있었습니다. 이전에는 æ, œ와 같은 합자(Ligature)를 입력하면 제대로된 검색이 불가능했지만, 이제는 합자도 분해해서 검색이 가능합니다. 동사 활용형에서 분사 및 동명사가 제대로 검색되지 않는 버그가 있었는데 수정했습니다. 또 불규칙 격변화 중 대명사형 변화를 따르는 품사들이 잘못 변화되던 버그를 수정했습니다.

그리고 마지막으로 코퍼스 주석을 편집하는 도구를 개발했습니다. 사전 모듈에서 JSON으로 결과를 리턴하면 클라이언트 페이지에서 AJAX를 이용하여 동적으로 단어를 분석하고 주석에 대한 힌트를 제공하는 식으로 개발했습니다. 개인적으로 쓰고자 개발한 것이라 UI는 개나 줘버리고 대충 만든거였는데 코퍼스 번역하는데 사용해보니 꽤나 유용해서 이번 휴가를 이용해 사이트에서 제공하기로 했습니다.



그리고 사전을 공개한 뒤 이용자들의 패턴을 분석해보니, 라틴어-한국어 사전에서 라틴어 대신 영어 단어를 가지고 검색을 시도한다던지, 한국어-라틴어 사전에서 한국어가 아닌 라틴어 단어를 검색한다던지, 혹은 두 단어 이상의 문장을 검색하는 등 사전을 잘못 이용하는 경우가 많다는 것을 알게되었습니다. 물론 사전 서비스 페이지에 '라틴어만 입력하시오', '한국어 단어 하나만 입력하시오'와 같은 안내 문구를 보여주어 이용자를 교육하는 방법도 나쁘지 않지만, 근본적으로 이용자들이 사전을 잘못 이용하는데에는 상황별로 페이지를 다양하게 나눠놓은 사이트 구조에 원인이 있다고 판단하여, 아예 통합 사전 검색 페이지를 제공하기로 했습니다. 이제 통합 검색 페이지에서 한국어/라틴어/영어, 단어/문장에 상관 없이 자유롭게 검색해도 원하는 결과를 얻을 수 있게 되었습니다. AJAX를 이용하여 비동기로 라틴어 분석 결과와 코퍼스 검색 결과를 제공하며 이 기능은 앞으로 사전 내용이 차차 채워져 나감에 따라 더 발전할 것입니다.


사전 등재어 번역은 전체 21000단어 중 약 7000단어가 완료된 상황입니다. 계획대로라면 9000단어 정도는 달성할 것으로 예측했었지만, 예정보다 조금 늦어지고 있습니다. 다만 이전의 ABC 순의 등재어 번역이 아니라, 코퍼스를 통한 고빈도어부터 번역해나가는 것으로 프로세스가 변경되었기에, 사용빈도를 가중치로 두고 계산하면 약 70%이상의 완성도를 보인다고 할 수 있겠습니다.

관련글 더보기

댓글 영역