나의 큰 O는 log x야

고정 헤더 영역

글 제목

메뉴 레이어

나의 큰 O는 log x야

메뉴 리스트

  • 홈
  • Tag
  • Guestbook
  • Admin
  • 분류 전체보기
    • 적분史
    • 프로그래밍
      • PG어
      • 테크닉
      • 3D
      • Multi precision
      • 포니게임개발
      • 스페샬
      • NLP
    • 소리
    • 언어
      • 어원 이야기
      • 라틴어
    • 수업노트
      • 한국고대경제와사회
      • 영어구조론
      • 정보검색론
      • 인간의삶과역사속의미생물
      • 기타
    • 잉여
      • 미래
      • 수학
      • 종교개혁
    • 그냥 공부
    • 가짜 정보 정정합니다.

검색 레이어

나의 큰 O는 log x야

검색 영역

컨텐츠 검색

MySQL

  • [PHP, MySQL] 코퍼스를 통해 관련어 추출

    2016.08.03 by ∫2tdt=t²+c

  • php-detectLang 공개 및 다운로드

    2016.05.09 by ∫2tdt=t²+c

  • [PHP + MySQL] 언어 식별기(Language Detection) 개발기

    2016.04.28 by ∫2tdt=t²+c

  • [PHP, MySQL] 클러스터링을 이용한 동음이의어 분리

    2015.10.18 by ∫2tdt=t²+c

  • 사전 표제어 뜻풀이의 자동 기계 번역(PHP, MySQL)

    2015.08.01 by ∫2tdt=t²+c

  • Bigram을 이용한 검색어 정정기능 개선 (PHP, MySQL)

    2015.07.18 by ∫2tdt=t²+c

  • Bigram을 이용한 오타 검색어 정정, 검색어 제안 기능 (PHP, MySQL)

    2015.07.11 by ∫2tdt=t²+c

[PHP, MySQL] 코퍼스를 통해 관련어 추출

최근 살아있는 라틴어 사전에서는 관련어 정보를 함께 제공하기 시작했습니다. 한 단어와 같이 등장할 가능성이 높은 단어를 함께 보여줌으로써 단어 검색의 효율성과 효과를 높이고자 한 것인데요, 이번엔 이 관련어 추출에 사용한 방법에 대해서 이야기해보고자 합니다. 기본적인 가정은 다음과 같습니다.관련 있는 단어일수록 한 문장에 같이 등장하는 빈도가 높을 것이다. 마찬가지로 한 문장에 같이 등장하는 빈도가 높을 수록 관련 있는 단어일 것이다. 즉 관련도를 함께 등장하는 빈도로 평가하겠다는 것이지요. 자 가장 간단한 방법으로 어떤 단어 A랑 함께 등장하는 모든 단어를 찾아서 그 함께 등장하는 빈도수로 정렬하는 것을 생각해 볼 수 있겠지요. 오늘 예시로 함께 할 라틴어 단어는 bibo (마시다)입니다. 코퍼스를 이..

프로그래밍 2016. 8. 3. 03:22

php-detectLang 공개 및 다운로드

전에 작업했었던 언어 식별기(2016/04/28 - [프로그래밍] - [PHP + MySQL] 언어 식별기(Language Detection) 개발기) 코드를 정비해서 드디어 공개할 수 있게 되었습니다. PHP+MySQL 환경을 이용하시는 분이라면 누구나 쉽고 유용하게 쓰길바라며..! 저는 기존에 있던 Latin Mini Crawler에 이 기능을 붙여서 언어 식별 기능을 강화했습니다. 기존 크롤러가 라틴어인데 라틴어가 아니라고 판단하고 지나친 텍스트들과 라틴어가 아닌데 라틴어라고 판단해서 잘못 수집한 텍스트들을 정정하는데 큰 도움이 될거라는 생각에 벌써부터 마음이 부푸는군요! 다 좋은 라이브러리인데 문제는 용량입니다. Basic Set(약 70여 개의 주요 언어 포함)의 경우 7.33MB, Advanc..

프로그래밍 2016. 5. 9. 23:23

[PHP + MySQL] 언어 식별기(Language Detection) 개발기

요즘 뭔가를 만들고 나면 반드시 기록을 남겨두려고 노력하고 있습니다. 안 그러면 만든 저 자신조차 나중에 어떻게 만들었는지 잊어버려서 수정하거나 더 발전시키기가 어려워지더라구요. 나중에 안 까먹으려면 건물을 지었을때 설계도를 잘 남겨두어야겠죠. 그래야 건물이 무너져도 다시 지을수 있을테니깐요. 삽질에 대한 머릿말 몇 주 동안(시험기간 빼면 사실 별로 안되지만) 언어 식별기(Language Detector)를 만들고자 노력해봤습니다. 사실 이미 더 좋은 성능의 언어 식별 라이브러리가 여기저기 널려 있죠. 특히 구글이 제공하는 것은 확실히 구글답게 막강하다고 할 수 있습니다. 그래도 그냥 한 번 스스로 만들어보고 싶었어요. 그냥 재미있을거같아서. 기초적인 아이디어는 예전에 라틴어 자동 크롤러(LMC: Lat..

프로그래밍 2016. 4. 28. 03:56

[PHP, MySQL] 클러스터링을 이용한 동음이의어 분리

오랜만에 글을 올리네요. 최근 작업한 부분은 도치 색인을 이용해서 만들어진 한국어-라틴어 사전의 내용을 개선하는 일이었습니다. 라틴어-한국어 사전을 편찬하면서 자동으로 생성되는 (라틴어, 한국어) 단어쌍을 뒤집으면 (한국어, 라틴어) 단어쌍이 되겠죠. 이 뒤집힌(도치된) 단어쌍을 모으면 한국어-라틴어 사전이 자동으로 만들어집니다. 문제는 기계적으로 만들어진 사전이다보니, 실제 활용하기에 번거로운점이 많다는 것입니다. 기존 한-라사전의 내용을 예로 들어보겠습니다. 눈 calyx, calycis; gemma, gemmae; oculus, oculī; cilium, ciliī; gena, genae; lūmen, lūminis; ninguis, ninguis; nix, nivis 뜻이 '눈'인 라틴어 단어를 ..

프로그래밍 2015. 10. 18. 16:53

사전 표제어 뜻풀이의 자동 기계 번역(PHP, MySQL)

네! 휴가나왔습니다~ 소중한 휴가 시간을 일일히 라틴어 사전 단어를 번역하면서 보낼수는 없다는 생각이 번뜩 들었습니다. 번역이라는 작업이 굉장히 고도로 복잡하고 어려운 작업이면서도 또 동시에 지루하고 단순한 반복작업이 되기도 합니다. 구문 번역이 아니라 외국어 사전에 실린 뜻풀이를 번역하는 일은 특히 더 반복적이고 지루합니다. (8000여 단어 번역을 직접 해본결과 하는 일은 1.단어를 본다 2.아는 단어면 바로 뜻을 적는다 3.모르는 단어면 사전을 찾아서 적는다 4.1번으로 돌아가 반복) 그래서 생각했습니다. 제 인생과 코딩의 모토는 단순하고 반복적인 작업은 기계에게 맡기고 사람은 창의적인 일에 시간을 써야한다.-적분, 2015, 군복무 중에(ㅋㅋㅋ) 이기 때문에, 이 단순하고 짜증하는 사전번역의 윤회..

프로그래밍 2015. 8. 1. 12:53

Bigram을 이용한 검색어 정정기능 개선 (PHP, MySQL)

앞선 글(Bigram을 이용한 오타 검색어 정정, 검색어 제안 기능)에서 Bigram을 활용해 검색어에 오타나 철자 오류가 있을때 유사한 검색어를 제안하는 방법에 대해서 설명했습니다. 여기서는 그 방법을 좀더 개선하는 방법에 대해서도 이야기해봅니다. 입력된 검색어를 2글자씩 끊어서 통계처리하는 방법은 중간에 한 두 글자 오타가 삽입되거나, 글자가 누락되거나, 글자 순서가 한 두개 바뀌는 것에 대해 높은 유사도로 변별해낼 수 있습니다. 문제는 문자 모양 혹은 발음이 비슷해서 헷갈리는 바람에 잘못 입력한 경우는 원래 사용자가 의도했던 검색어와 유사도가 높지 않을 수 있다는 것입니다. 로마자 알파벳 i와 L이 대표적인 예입니다. 대문자 I는 소문자 l과 거의 똑같이 생겼기 때문에 인쇄된 글을 그대로 타이핑하거..

프로그래밍 2015. 7. 18. 14:07

Bigram을 이용한 오타 검색어 정정, 검색어 제안 기능 (PHP, MySQL)

요즘 검색엔진은 친절해서 이용자들이 실수로 검색어를 잘못입력하거나 오타를 내도 알아서 수정해서 검색을 해줍니다. 세상 참 좋아졌지요!라틴어 사전 이용자들의 이용 형태를 살펴보면서 어학 사전에서도 역시 검색어를 잘못 입력하는 실수 등이 자주 발생한다는 것을 알 수 있었습니다. 외국어 학습자의 경우 모국어 사용자에 비해 오타나 잘못된 단어를 입력할 가능성이 훨씬 높고, 잘못된 입력이 발생해도 어디가 틀려서 원하는 검색 결과를 얻지 못하는지 알기도 어렵습니다. 그래서 살아있는 라틴어 사전에서도 네이버나 구글 등의 검색엔진에서 제공해주는 검색어 정정 및 제안 기능을 비슷하게나마 제공해줘야겠다는 생각이 들었습니다. 문제는 어떻게 이 서비스를 제공할 것인가인데... 다행히도 영어전산언어학 수업이랑 정보검색론 수업에..

프로그래밍 2015. 7. 11. 19:41

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

블로그 이미지

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

댓글

태그

NLP pg어 우리역사바로알기대회 c++ 정보조직론 포니게임 한국고대경제와사회 라틴어 텍스트 마이닝 BigFloat 악보 영어구조론 kiwi python Direct3D 토픽 모델링 php 문헌정보통계 리듬게임 자연언어처리

방문자

오늘
어제
전체

페이징

이전
1
다음
나의 큰 O는 log x야
메일 bab2min@gmail.com
Skin Images are from Stinkehund.

티스토리툴바