나의 큰 O는 log x야

고정 헤더 영역

글 제목

메뉴 레이어

나의 큰 O는 log x야

메뉴 리스트

  • 홈
  • Tag
  • Guestbook
  • Admin
  • 분류 전체보기
    • 적분史
    • 프로그래밍
      • PG어
      • 테크닉
      • 3D
      • Multi precision
      • 포니게임개발
      • 스페샬
      • NLP
    • 소리
    • 언어
      • 어원 이야기
      • 라틴어
    • 수업노트
      • 한국고대경제와사회
      • 영어구조론
      • 정보검색론
      • 인간의삶과역사속의미생물
      • 기타
    • 잉여
      • 미래
      • 수학
      • 종교개혁
    • 그냥 공부
    • 가짜 정보 정정합니다.

검색 레이어

나의 큰 O는 log x야

검색 영역

컨텐츠 검색

korpusql

  • [KorpuSQL] 클릭만으로 간편하게 코퍼스 구축하기

    2016.06.18 by ∫2tdt=t²+c

  • UTagger + KorpuSQL을 이용해서 코퍼스 구축하기

    2016.01.28 by ∫2tdt=t²+c

  • 코퍼스 분석용 SQL도구 KorpuSQL 개발!

    2016.01.27 by ∫2tdt=t²+c

[KorpuSQL] 클릭만으로 간편하게 코퍼스 구축하기

말년휴가 때 나와서 코퍼스 분석도구 KorpuSQL을 개발했었죠. 원래는 울산대 UTagger나 기타 형태소 분석기를 결합하여서 일반 텍스트를 입력하면 바로 코퍼스 분석이 되고, 그걸 이리저리 가지고 놀수 있도록 하려고 했는데, 소스코드 제공을 받는데 실패해서 결합할 수가 없었습니다. 그래서 그 기능 빼고 개발을 진행했는데, 많은 분들께서 형태소 분석기를 별도로 실행해서 KorpuSQL과 연동하는게 어렵다는 문의를 주셨습니다. 그래서 c/c++가 아니라 Java로 개발된 형태소 분석기를 연동할 수 있도록 패치 작업을 진행했습니다. (C/C++로 작성된 것보다는 성능 상의 한계가 있겠지만, 그래도 클릭만으로 형태소 분석기가 연동되어 바로 결과를 확인할 수 있다는게, 국어 정보학 발전에 더 큰 이바지를 할수..

프로그래밍 2016. 6. 18. 10:05

UTagger + KorpuSQL을 이용해서 코퍼스 구축하기

KorpuSQL 다운로드는 아래 페이지에서 가능합니다.2016/01/27 - [프로그래밍] - 코퍼스 분석용 SQL도구 KorpuSQL 개발! KorpuSQL을 개발한게 간편한 코퍼스 구축을 위해서였죠. 구슬이 서 말이라도 꿰어야 보배인것처럼 코퍼스 처리 프로그램이 서 말이라도 직접 구축해보지 않으면 의미가 없어요. 그래서 한 번 코퍼스 구축을 해보기로 했습니다. 텍스트를 구하기가 가장 쉬운 방법이 뭐가 있을까 고민하다가, 한국어 위키백과의 문서들을 가져와서 코퍼스로 구축해보기로 했습니다. 일단 위키백과가 백과사전을 지향하는 위키 사이트이다보니, 다른 인터넷 페이지들과는 달리 어느 정도 검증된 표현을 사용하고, 구어나 인터넷에서 유행하는 이상한 말들보다는 표준어 문어체로 작성되어 있어서 이 친구를 고른 ..

적분史 2016. 1. 28. 17:19

코퍼스 분석용 SQL도구 KorpuSQL 개발!

예전에 국어정보학 수업 들었을때 코퍼스로 빈도 분석하는 것을 용이하게 하려고 Counter++를 개발했던 적이 있었습니다. 벌써 2년도 넘게 된일이죠. 이 프로그램을 통해서 연어 빈도를 매우 간편하게 조사할 수 있었습니다. 덕분에 국어정보학 과제를 하는데 큰 도움이 됐었지요. 하지만 이걸 짜던 당시에도 과연 이 프로그램이 연어 빈도 이상의 분석을 하는데 유용하게 쓰일수 있을지에 대해 회의가 많았습니다. 일단 파이썬이나 기타 스크립트 언어가 아닌 네이티브 C로 작성했는데도 생각처럼 빠른 속도가 나오지 않았고(환경에 따라 300만 어절 검색하는데 몇십초에서 몇분이 걸리기도 할 정도였습니다.), 단순히 한 행의 문자열을 정규식 비교를 통해 골라내서 앞뒤 행을 골라내는거라 복잡한 조건을 주고 검색하는것이 불가능..

프로그래밍 2016. 1. 27. 03:16

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

블로그 이미지

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

댓글

태그

c++ 자연언어처리 정보조직론 kiwi 토픽 모델링 NLP 영어구조론 python Direct3D 포니게임 라틴어 BigFloat 문헌정보통계 텍스트 마이닝 악보 php 리듬게임 한국고대경제와사회 우리역사바로알기대회 pg어

방문자

오늘
어제
전체

페이징

이전
1
다음
나의 큰 O는 log x야
메일 bab2min@gmail.com
Skin Images are from Stinkehund.

티스토리툴바