나의 큰 O는 log x야

고정 헤더 영역

글 제목

메뉴 레이어

나의 큰 O는 log x야

메뉴 리스트

  • 홈
  • Tag
  • Guestbook
  • Admin
  • 분류 전체보기
    • 적분史
    • 프로그래밍
      • PG어
      • 테크닉
      • 3D
      • Multi precision
      • 포니게임개발
      • 스페샬
      • NLP
    • 소리
    • 언어
      • 어원 이야기
      • 라틴어
    • 수업노트
      • 한국고대경제와사회
      • 영어구조론
      • 정보검색론
      • 인간의삶과역사속의미생물
      • 기타
    • 잉여
      • 미래
      • 수학
      • 종교개혁
    • 그냥 공부
    • 가짜 정보 정정합니다.
홈TagGuestbookAdmin
  • 적분史
  • 프로그래밍
    • PG어
    • 테크닉
    • 3D
    • Multi precision
    • 포니게임개발
    • 스페샬
    • NLP
  • 소리
  • 언어
    • 어원 이야기
    • 라틴어
  • 수업노트
    • 한국고대경제와사회
    • 영어구조론
    • 정보검색론
    • 인간의삶과역사속의미생물
    • 기타
  • 잉여
    • 미래
    • 수학
    • 종교개혁
  • 그냥 공부
  • 가짜 정보 정정합니다.

검색 레이어

나의 큰 O는 log x야

검색 영역

컨텐츠 검색

php

  • Bigram을 이용한 검색어 정정기능 개선 (PHP, MySQL)

    2015.07.18 by ∫2tdt=t²+c

  • Bigram을 이용한 오타 검색어 정정, 검색어 제안 기능 (PHP, MySQL)

    2015.07.11 by ∫2tdt=t²+c

  • 문헌 클러스터링 기술을 이용한 유의어 분류(PHP, MySQL)

    2015.05.03 by ∫2tdt=t²+c

  • 라틴어 사전 2차 패치

    2015.04.11 by ∫2tdt=t²+c

  • 라틴어 사전 1차 패치

    2015.01.26 by ∫2tdt=t²+c

  • 라틴어 사전 개발기

    2014.11.23 by ∫2tdt=t²+c

Bigram을 이용한 검색어 정정기능 개선 (PHP, MySQL)

앞선 글(Bigram을 이용한 오타 검색어 정정, 검색어 제안 기능)에서 Bigram을 활용해 검색어에 오타나 철자 오류가 있을때 유사한 검색어를 제안하는 방법에 대해서 설명했습니다. 여기서는 그 방법을 좀더 개선하는 방법에 대해서도 이야기해봅니다. 입력된 검색어를 2글자씩 끊어서 통계처리하는 방법은 중간에 한 두 글자 오타가 삽입되거나, 글자가 누락되거나, 글자 순서가 한 두개 바뀌는 것에 대해 높은 유사도로 변별해낼 수 있습니다. 문제는 문자 모양 혹은 발음이 비슷해서 헷갈리는 바람에 잘못 입력한 경우는 원래 사용자가 의도했던 검색어와 유사도가 높지 않을 수 있다는 것입니다. 로마자 알파벳 i와 L이 대표적인 예입니다. 대문자 I는 소문자 l과 거의 똑같이 생겼기 때문에 인쇄된 글을 그대로 타이핑하거..

프로그래밍 2015. 7. 18. 14:07

Bigram을 이용한 오타 검색어 정정, 검색어 제안 기능 (PHP, MySQL)

요즘 검색엔진은 친절해서 이용자들이 실수로 검색어를 잘못입력하거나 오타를 내도 알아서 수정해서 검색을 해줍니다. 세상 참 좋아졌지요!라틴어 사전 이용자들의 이용 형태를 살펴보면서 어학 사전에서도 역시 검색어를 잘못 입력하는 실수 등이 자주 발생한다는 것을 알 수 있었습니다. 외국어 학습자의 경우 모국어 사용자에 비해 오타나 잘못된 단어를 입력할 가능성이 훨씬 높고, 잘못된 입력이 발생해도 어디가 틀려서 원하는 검색 결과를 얻지 못하는지 알기도 어렵습니다. 그래서 살아있는 라틴어 사전에서도 네이버나 구글 등의 검색엔진에서 제공해주는 검색어 정정 및 제안 기능을 비슷하게나마 제공해줘야겠다는 생각이 들었습니다. 문제는 어떻게 이 서비스를 제공할 것인가인데... 다행히도 영어전산언어학 수업이랑 정보검색론 수업에..

프로그래밍 2015. 7. 11. 19:41

문헌 클러스터링 기술을 이용한 유의어 분류(PHP, MySQL)

정보검색론을 공부하면서 예전에 문헌 클러스터링 기법에 대해서 공부한 적이 있습니다. 그 당시에는 이걸 어디 쓸데가 있으려나 반신반의하면서 공부했는데, 드디어 실제로 이 기법을 활용하게 되었네요. 라틴어 사전 작업을 하던 도중 단어 검색이나 번역 작업 등을 할때 사용할 수 있게 유의어(synonym; 비슷한 의미의 단어) 정보를 제공할 수 있으면 좋겠다고 생각했습니다. 문제는 비슷한 의미의 단어를 일일히 수작업으로 추려내기엔 너무 비효율적이고 (심지어 제 군생활 안에 끝나지도 않을 정도로) 오래걸린다는거였습니다. 그러던 중 클러스터링 기술이 문뜩 떠올라 한번 적용해보았는데 생각보다 결과가 깔끔하게 나와서 작업 내용도 정리하고 정보도 공유할겸 오랜만에 포스팅해봅니다. 이 글에 앞서 아래 내용들을 미리 숙지하..

프로그래밍 2015. 5. 3. 16:54

라틴어 사전 2차 패치

몇달 사이에 생각보다 많은 사항을 업그레이드했습니다. 저번 휴가 복귀 직전에 혹시나 하는 마음에 서버쪽에 PHP코드를 수정할 수 있는 PHP파일을 하나 올려두었습니다. 보안상으로는 심각한 위험이 있는 방법이었지만, 페이지에서 버그가 발견되었을대 부대 내 사지방에서 조치할 방법이 없을테니 만약을 대비해서 만들어둔 지푸라기 같은 녀석이었습니다. 그런대 이를 이용해서 더 발전된 코드 수정 페이지를 작성하고, 그 페이지를 바탕으로 사전과 홈페이지 모듈을 손보게 되면서 다음 휴가 전까지는 불가능할거라고 여기던 작업들을 해내게 되었습니다. 이야호! 레이아웃 상 눈에 띄는 변화는 반응형 스킨 적용입니다. 살아있는 헬라어 페이지를 만들면서 시험 적용해보았는데 생각보다 괜찮아서 살아있는 라틴어 홈페이지에도 적용하게 되었..

적분史 2015. 4. 11. 02:34

라틴어 사전 1차 패치

저번 2014/11/23 - [적분史] - 라틴어 사전 개발기 에서 라틴어 사전을 개발 중이라는 소식을 알렸었죠. 여기서는 저번 휴가때 이룬 패치내역에 대해서 소개합니다. * 주제별 색인 가나다 순으로 정렬 안되던 버그 수정* 동사 활용형에 대한 한국어 주석 기능 강화* 이상동사(deponent verb) 활용형이 제대로 나타나지 않던 버그 수정* 굴절형으로 검색이 제대로 되지 않던 버그 수정* 한국어-라틴어 사전 작업* 예문 기능 추가 가장 마지막이 하이라이트입니다. 본래 목표하던 바인 코퍼스 구축의 첫 삽을 뜬 행위기 때문입니다. 이를 위해서 불가타 성경 라틴어 전문을 수록하고 (전문은 교황청에서 친히 제공하고 있습니다! 만세이!) 한국어 주석을 달려고 했으나 새번역 성경 등의 한국어 성경은 저작권 ..

적분史 2015. 1. 26. 20:45

라틴어 사전 개발기

라틴어 사전 개발에 대한 욕망은 사이트를 개설할 때부터 있었습니다. 그때의 생각은 그냥 단순하게 사이트에 수록된 본문들에서 자주 등장하는 단어들을 정리해서 페이지를 방문하는 사람들이 바로 살펴볼수 있게 도와주는 기능 정도로 생각하고 있었습니다. 그래서 아주 단순한 단어장을 만들어서 링크해주고 있었죠.그리고 그 다음 생각한 기능은 라틴어 단어의 활용 형태를 보여주는 것이었습니다. 불규칙적인 경우를 제외하면 라틴어 단어 활용형은 알고리즘적으로 생성하는게 가능했기에 규칙적인 경우에 대해서 활용형태를 제공하는 기능을 에 추가했습니다. 하지만 이는 불규칙 활용형을 배제했기에 불완전할 수 밖에 없었고, 이를 해결하려면 라틴어 단어 DB를 모아 불규칙적인 경우는 별도의 활용형을 제공해줘야 한다는 것을 새삼 느끼게 되..

적분史 2014. 11. 23. 15:27

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

블로그 이미지

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

댓글

태그

자연언어처리 텍스트 마이닝 문헌정보통계 kiwi 토픽 모델링 리듬게임 포니게임 한국고대경제와사회 c++ 라틴어 NLP BigFloat Direct3D 영어구조론 php 정보조직론 악보 python pg어 우리역사바로알기대회

방문자

오늘
어제
전체

페이징

이전
1 2
다음
나의 큰 O는 log x야
메일 bab2min@gmail.com
Skin Images are from Stinkehund.

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.