사전 표제어 뜻풀이의 자동 기계 번역(PHP, MySQL)

프로그래밍

by ∫2tdt=t²+c 2015. 8. 1. 12:53

네! 휴가나왔습니다~ 소중한 휴가 시간을 일일히 라틴어 사전 단어를 번역하면서 보낼수는 없다는 생각이 번뜩 들었습니다. 번역이라는 작업이 굉장히 고도로 복잡하고 어려운 작업이면서도 또 동시에 지루하고 단순한 반복작업이 되기도 합니다. 구문 번역이 아니라 외국어 사전에 실린 뜻풀이를 번역하는 일은 특히 더 반복적이고 지루합니다. (8000여 단어 번역을 직접 해본결과 하는 일은 1.단어를 본다 2.아는 단어면 바로 뜻을 적는다 3.모르는 단어면 사전을 찾아서 적는다 4.1번으로 돌아가 반복)

그래서 생각했습니다. 제 인생과 코딩의 모토는

단순하고 반복적인 작업은 기계에게 맡기고 사람은 창의적인 일에 시간을 써야한다.
-적분, 2015, 군복무 중에

(ㅋㅋㅋ) 이기 때문에, 이 단순하고 짜증하는 사전번역의 윤회 고리를 끊어야겠다는 계획이 생겼습니다. 아이디어는 다음과 같습니다.

외국어 사전은 일반적으로 다음과 같은 형태로 구성되어 있습니다.

A. 표제어

B. 갈래뜻별 뜻풀이

C. 용례

예를 들어 라틴어 단어 ager를 예로 들어보죠.

A. ager

B. 1) field, farm

2) land, estate, park

3) territory, country

4) terrain

5) soil

C. 생략

여기서 주목할 것은 B의 갈래뜻입니다. 1)~5)은 단어 ager가 가질수 있는 뜻을 보여줍니다. ager는 5개의 갈래뜻이 있는거죠. 그리고 그 갈래뜻 안에 영어 뜻풀이가 1~3개씩 들어있습니다. 이렇게 표현되어있는 이유는 한 언어에서 특정 뜻을 나타내는 단어가 다른언어의 단어와 일대일로 대응하지 않기 때문이죠. 즉 ager의 첫번째 뜻은 field와 farm을 포함하는 그 어떤 의미가 되는데 영어로는 한 단어로 대응하는 단어가 없다는 겁니다. (아마 한국어로 표현하면 밭이나 토지 정도가 되겠죠) 이때 field와 farm은 하나의 갈래뜻 ager 1)을 나타내므로 서로 어느정도 유사한 의미를 가질 수 밖에 없습니다. 즉 1)의 field는 분야, 경기장, 장 등의 의미가 아니라 토지, 농장과 유사한 의미를 가진다는 거죠. 여기서 우리는 유의어를 골라내고, 동음이의어를 구별할 수 있는 정보를 얻을 수 있습니다.

영한 사전에 경우로 설명하자면 영어 단어 ask의 갈래뜻으로 묻다, 질문하다가 표제되어 있다고 합시다. 여기서 묻다는 물어보다의 뜻이 되지, 매장하다의 뜻은 될수가 없습니다. 그것은 뒤의 질문하다라는 단어랑 묻다라는 단어가 유의어가 되어야만 하기 때문입니다.

라틴어 사전을 번역하면서 저는 아래와 같은 자료를 만들고 있었습니다.

A. 라틴어 표제어

B. 갈래뜻별 영어 뜻풀이

C. 갈래뜻별 한국어 뜻풀이

D. 용례

또다시 ager의 예를 들겠습니다.

A. ager

B. 1) field, farm

2) land, estate, park

3) territory, country

4) terrain

5) soil

C. 1) 밭, 토지, 농장

2) 땅, 사유지, 공원

3) 영토, 국가

4) 지형

5) 토양

D. 생략

여기서 우리는 영어로 된 갈래뜻 1)~5)와 한국어로 된 갈래뜻 1)~5)를 비교할 수 있습니다. 이를 통해 영어단어 field가 한국어로는 밭/토지/농장 등의 의미를 가질 수 있다고 추측할 수 있죠. farm의 경우도 마찬가지 입니다.

단어 categoria를 보죠.

A. categoria

B. 1) predicament

2) category, field

C. 1) 상태, 경우

2) 분야, 부분

갈래뜻2)에 field가 등장합니다. 여기서는 field가 분야/부분이라는 의미로 쓰였습니다. (실제로는 field가 등장하는 표제어가 무지하게 많겠지만 여기서는 설명의 편의를 위해 2개만 제시하겠습니다.) 이제 영단어 field가 어떤 의미를 가질지 확률적으로 계산할 수 있습니다. 완전 랜덤은 아니죠. 갈래뜻풀이에 같이 등장하는 단어에 따라 의미가 밭에서 분야로 바뀌는거니깐, 조건부 확률이랑 유사할거라고 생각할 수 있습니다.

이제 각 영단어별로 한국어 의미 가중치를 고려해봅시다.

ager 1)의 field는 그 의미가 밭/토지/농장이 될 수 있습니다. 셋 중 어떤게 의도하는 의미일지는 여기서는 알수 없으니 균등분포한다고 가정하고 진행하겠습니다. 그러면 다음 표와 같이 가중치 테이블을 만들 수 있습니다.

영단어 A	한국어단어 B	A가 B의미일 확률
field	밭	0.333
field	토지	0.333
field	농장	0.333

categoria 2)를 표로 만들면

영단어 A	한국어단어 B	A가 B의미일 확률
field	분야	0.500
field	부분	0.500

다른 영단어에 대해서도 마찬가지로 표를 만들어봅시다. (귀찮아서 다 합쳐버렸어요)

영단어 A	한국어단어 B	A가 B의미일 확률
farm	밭	0.333
farm	토지	0.333
farm	농장	0.333
category	분야	0.500
category	부분	0.500

이 표들을 바탕으로 갈래뜻풀이가 여럿일때의 의미를 추정해봅시다. 의미 확률을 가중치로 생각해서 그냥 합쳐버립시다. 그게 계산이 간단해서 편하고 빠르더라구요.

즉,

이를 바탕으로 field, farm의 의미별 가능성을 계산해볼수 있습니다.

한국어단어 B	A가 B의미일 확률
밭	0.666
토지	0.666
농장	0.666
분야	0.500
부분	0.500

이제 PHP, MySQL을 통해 구현해봅시다. 생각보다 간단합니다.

사전 표제어는 word 테이블에 있고, 우리는 이를 바탕으로 영단어별 한국어의미 가중치를 담는 테이블 ek를 채워넣을 것입니다.

$s = "SELECT `kor`, `eng`, `class` FROM `word` WHERE `kor` <> ''";//사전 표제어를 전부 가져옵니다.
$result = mysql_query($s);
while($row = mysql_fetch_assoc($result)) {
	$class = $row['class'];
/* 품사를 가져옵니다. 영단어의 경우 형태가 같지만 품사가 달라
해석이 바뀌는 경우가 많으므로 품사 정보도 참고해야합니다. */
	$kl = explode('//', $kor);
	$el = explode('//', $eng);
	$s = "INSERT INTO `ek` (`eng`, `kor`, `class`, `weight`) VALUES ";
	for($i = 0;$i < count($kl) && $i < count($el);$i++) {
		$k = preg_split('/[,;!.?:]/', $kl[$i]);
		$e = preg_split('/[,;!.?:]/', $el[$i]);
		foreach($e as $em) {
			$em = preg_replace('/\s\s+/', ' ', $em);
			$em = trim(preg_replace('/^(I|To|A|An|The) /i', '', trim($em)));
/*영어 갈래뜻풀이 앞쪽에 자주 등장하는 의미없는 부분을 제거합니다.*/
			if(strlen($em) < 2) continue;
			foreach($k as $km){
				$km = trim($km);
				if(strlen($km) < 1) continue;
				$s .= "('".mysql_real_escape_string($em)."', '".mysql_real_escape_string($km)."', '".$class."', ".1/count($k)."),";
// 가중치는 영어뜻풀이에 해당하는 한국어 뜻풀이 개수의 역수(1/count($k))입니다.
			}
		}
	}
	mysql_query(substr($s, 0, -1));
}

이제 이 가중치 테이블 ek를 이용해 기계번역을 하는 함수를 만들어봅시다.

실제로 어떤 결과가 나올까요? 라틴어 사전의 이미 번역된 8000여 쌍의 영어-한국어 단어를 바탕으로 가중치 테이블을 구축하고 실험해보았습니다.

getTranslation(array('go', 'proceed', 'advance'), 'v'); // go, proceed, advance라는 뜻풀이를 가진 동사의 한국어의미를 추정합니다.

한국어 의미	가중치
전진하다	8.2831
나아가다	5.0331
가다	3.1500
행진하다	1.1666
행군하다	1.0000
들어오다	1.0000
나타나다	0.9999
앞서 가다	0.9999
전진시키다	0.7500
움직이다	0.7000
발전하다	0.6666
진보하다	0.6666
늙다	0.6666
앞으로 내보내다	0.5000
딛고 넘다	0.5000
진전하다	0.5000
순환하다	0.5000
다시 지나다	0.5000
돌다	0.5000
한도를 넘다	0.5000
공격하다	0.5000
재횡단하다	0.5000

상위권 3~4개정도만 추려서 보면 의미 추정이 생각보다 괜찮게 되었음을 알 수 있습니다. 하지만 이 결과는 가중치를 구축하는데에 8000여쌍의 영어-한국어 단어쌍에 크게 의존합니다. 단어쌍이 생각보다 고르지 않아서 전혀 뜻풀이가 안되는 영단어들도 많고 오히려 엉뚱한 뜻을 추정해내는 경우도 자주 있네요. 이런 것들 추려내고 나니 2만1천개의 라틴어 표제어 중 번역이 안된 1만3천개 중에 5천개 정도가 자동번역으로 뜻풀이를 붙일 수 있었습니다.

한 두 시간 코딩한거에 비해 결과는 생각보다 잘 나왔어요. (단어 5000개를 순식간에 번역 끝냈것도 그렇고)

그리고 이 방법을 제작 중인 헬라어 사전에도 적용하면 되겠다싶어서 헬라어-영어 사전에 사용해서 헬라어-한국어 사전을 반쯤 완성시키는데 성공했습니다. 짜잔!

저작자표시 비영리 동일조건 (새창열림)

'프로그래밍' 카테고리의 다른 글

XE 페이지 주소 통일하기 (0)	2015.09.19
자바스크립트로 수식 파싱하기 (0)	2015.09.09
그리스문자 입력기 (0)	2015.08.02
Bigram을 이용한 검색어 정정기능 개선 (PHP, MySQL) (0)	2015.07.18
Bigram을 이용한 오타 검색어 정정, 검색어 제안 기능 (PHP, MySQL) (3)	2015.07.11
문헌 클러스터링 기술을 이용한 유의어 분류(PHP, MySQL) (0)	2015.05.03

글쓴이 ∫2tdt=t²+c

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

방문자

오늘

어제

전체

나의 큰 O는 log x야

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

'프로그래밍' 카테고리의 다른 글

관련글 더보기

댓글 영역

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

댓글

태그

방문자

티스토리툴바