상세 컨텐츠

본문 제목

[KorpuSQL] 클릭만으로 간편하게 코퍼스 구축하기

프로그래밍

by ∫2tdt=t²+c 2016. 6. 18. 10:05

본문

말년휴가 때 나와서 코퍼스 분석도구 KorpuSQL을 개발했었죠. 원래는 울산대 UTagger나 기타 형태소 분석기를 결합하여서 일반 텍스트를 입력하면 바로 코퍼스 분석이 되고, 그걸 이리저리 가지고 놀수 있도록 하려고 했는데, 소스코드 제공을 받는데 실패해서 결합할 수가 없었습니다. 그래서 그 기능 빼고 개발을 진행했는데, 많은 분들께서 형태소 분석기를 별도로 실행해서 KorpuSQL과 연동하는게 어렵다는 문의를 주셨습니다. 그래서 c/c++가 아니라 Java로 개발된 형태소 분석기를 연동할 수 있도록 패치 작업을 진행했습니다. (C/C++로 작성된 것보다는 성능 상의 한계가 있겠지만, 그래도 클릭만으로 형태소 분석기가 연동되어 바로 결과를 확인할 수 있다는게, 국어 정보학 발전에 더 큰 이바지를 할수 있을거 같아서...ㅎㅎ)


최신 버전은 [프로그래밍] - 코퍼스 분석용 SQL도구 KorpuSQL 여기서 받으실 수 있습니다.


현재 제공되는 추가기능은 꼬꼬마 형태소 분석기 연동 모듈Komoran 형태소 분석기 연동 모듈 2개입니다. 연동 모듈 개발은 간단하니 차차 개발해서 더 늘려가도록 할 예정입니다. 두 연동 모듈은 Java기반이기에 실행을 위해서는 Java Runtime 1.6 (32비트 버전) 이상의 환경이 필요합니다. JRE는 여기서 다운 받으실 수 있어요.  32bit 버전으로 설치해주세요. 

http://www.oracle.com/technetwork/java/javase/downloads/jre8-downloads-2133155.html


KSQL.exe를 실행했을때 아래와 같은 에러 메세지(~~모듈을 불러오는데 실패했습니다)가 뜨면 JRE가 제대로 설치되어있지 않은것입니다. 굳이 추기 기능을 사용하시지 않을거면, JRE설치 없이 나머지 기능만 사용할 수도 있습니다.

만약 JRE를 설치했는데도 위와 같은 에러가 뜬다면 환경 변수 설정이 제대로 안된 것일 수 있습니다. 환경변수 설정은 다음과 같이 할수 있어요.



실행화면입니다.


추가기능이 제대로 로드되었으면 메뉴가 위와 같이 나타납니다.


[새 데이터베이스]를 만들어볼까요


데이터베이스가 저장될 이름을 정하고 저장을 눌러주세요.


짜잔. 이제 [원시 코퍼스 입력], [원시 코퍼스 일괄 입력] 기능이 가능해졌습니다. 텍스트 파일 여러개를 입력할거니깐 [일괄 입력]을 누르겠습니다.


어떤 형태소 분석기를 사용할건지 물어봐요. 그러면 원하시는 걸 선택해주세요~!


해당 파일의 인코딩을 선택해주시고 [파일 추가]를 누릅시다.


분석할 텍스트 파일을 모두모두 선택하고 열기, 확인을 누르면 자동으로 분석이 진행됩니다.


자, 입력이 정상적으로 진행되면 위와 같이 색인된 문서, 문장, 단어 정보가 나타납니다.


바로 분석을 실시해서 원하는 조사를 수행할 수 있어요. 이렇게 만든 데이터베이스는 자동 저장됩니다. 다음에 열때는 [파일] - [데이터베이스 연결]을 누르고 전에 만들었던 데이터베이스 파일을 열어서 다른 조사도 수행해볼 수 있습니다. 간단하지요?



* Java 연동이 불안정합니다. JRE버전이 최신이 아니거나 시스템의 메모리가 충분치 않을 경우 프로그램이 비정상적으로 죽을 수 있습니다. JVM의 한계인듯 합니다. (에휴 이거뭐, C/C++ 기반의 형태소 분석기를 새로 하나 만들던지 그래야겠네요.)

관련글 더보기

댓글 영역