상세 컨텐츠

본문 제목

라틴어 사전 1차 패치

적분史

by ∫2tdt=t²+c 2015. 1. 26. 20:45

본문


저번 2014/11/23 - [적분史] - 라틴어 사전 개발기 에서 라틴어 사전을 개발 중이라는 소식을 알렸었죠. 여기서는 저번 휴가때 이룬 패치내역에 대해서 소개합니다.


* 주제별 색인 가나다 순으로 정렬 안되던 버그 수정

* 동사 활용형에 대한 한국어 주석 기능 강화

* 이상동사(deponent verb) 활용형이 제대로 나타나지 않던 버그 수정

* 굴절형으로 검색이 제대로 되지 않던 버그 수정

* 한국어-라틴어 사전 작업

* 예문 기능 추가


가장 마지막이 하이라이트입니다. 본래 목표하던 바인 코퍼스 구축의 첫 삽을 뜬 행위기 때문입니다. 이를 위해서 불가타 성경 라틴어 전문을 수록하고 (전문은 교황청에서 친히 제공하고 있습니다! 만세이!) 한국어 주석을 달려고 했으나 새번역 성경 등의 한국어 성경은 저작권 문제때문에 한국어 주석을 다는데 이용할 수가 없어서 주석은 보류 중입니다...


http://latina.bab2min.pe.kr/xe/lk?q=amoris


버그 수정으로 인해 기본적인 형태분석이 가능해지면서 위처럼 amoris로 검색해도 사전 표제어인 amor를 찾아줍니다. 친절히 예문들도 나타나죠.


추가된 기능중에는 한국어-라틴어 사전도 있습니다. 기존에는 라틴어 사전 DB에서 한국어 뜻 부분을 검색해서 해당되는 단어를 찾아주었다면, 이번 작업을 통해 한국어-라틴어 사전도 제대로된 인덱스를 가지게 되었습니다.

사실 라틴어-한국어 사전에서 한국어-라틴어 사전을 만들어내는 작업은 도치색인을 이용하면 별도의 작업없이 간단하게 할수 있습니다. 정보검색론 시간에 잠깐 스쳐들었던 도치색인(Inverted Index)이 이런데에 쓰일줄은 몰랐네요. 간단하게 설명을 하자면

표제어는 Term에 사전 본문은 Document에 대응시키고 각각의 라틴어-한국어 단어쌍을 생성한뒤 TF-IDF 가중치를 이용해 한국어-라틴어 사전의 표제어를 뽑아내는 것

그리고 Document 분류 기술을 이용해서 유의어 목록을 뽑아내는것도 가능할거 같습니다. (이건 다음휴가때 실험해보고 결과를 올려보겠습니다.)

2015년 1월 25일까지로해서 라틴어 단어는 총 5600여 개 번역이 완료되었고, 이 속도라면 2016년까지 단어 번역을 마치고 코퍼스 주석 작업에도 들어갈수 있을것으로 보입니다.

이상 보고끝.

관련글 더보기

댓글 영역