나의 큰 O는 log x야

고정 헤더 영역

글 제목

메뉴 레이어

나의 큰 O는 log x야

메뉴 리스트

  • 홈
  • Tag
  • Guestbook
  • Admin
  • 분류 전체보기
    • 적분史
    • 프로그래밍
      • PG어
      • 테크닉
      • 3D
      • Multi precision
      • 포니게임개발
      • 스페샬
      • NLP
    • 소리
    • 언어
      • 어원 이야기
      • 라틴어
    • 수업노트
      • 한국고대경제와사회
      • 영어구조론
      • 정보검색론
      • 인간의삶과역사속의미생물
      • 기타
    • 잉여
      • 미래
      • 수학
      • 종교개혁
    • 그냥 공부
    • 가짜 정보 정정합니다.

검색 레이어

나의 큰 O는 log x야

검색 영역

컨텐츠 검색

분류 전체보기

  • [Kiwi] 지능형 한국어 형태소 분석기 0.6버전 업데이트

    2018.12.09 by ∫2tdt=t²+c

  • [기계 번역] 이중 언어 데이터에서의 단어 임베딩 (Bilingual Word Embeddings from Non-Parallel Document Data)

    2018.11.30 by ∫2tdt=t²+c

  • 한국어 고문헌 검색기 '어듸메' 개발기

    2018.11.22 by ∫2tdt=t²+c

  • [Tensorflow] 문자 인식용 신경망 Python3 코드

    2018.11.14 by ∫2tdt=t²+c

  • 라틴어 고문헌 OCR 성능 개선시킨 후기

    2018.11.14 by ∫2tdt=t²+c

  • 단어 의미의 역사적 변천을 추적하기

    2018.11.12 by ∫2tdt=t²+c

  • [Python] 임의의 웹 페이지에서 텍스트를 추출하기

    2018.11.04 by ∫2tdt=t²+c

  • [Python] 호환용 한자를 통합 한자로 변환하기

    2018.10.28 by ∫2tdt=t²+c

[Kiwi] 지능형 한국어 형태소 분석기 0.6버전 업데이트

최근 Kiwi 형태소 분석기 0.6 버전 업데이트를 실시했습니다. 사실 엄청 바뀐건 없고, 이전 버전에서 사용하던 최적화를 좀더 한 단계 끌어올리는 작업을 수행했습니다. 0.4버전에서 도입한 그래프 기반 경로 탐색 알고리즘의 경우, 이상하게도 끝쪽에서 앞쪽으로 분석을 진행했습니다. 당시에 왜 이렇게 설계했는지 모르겠는데, 개발하고 보니, 역방향으로 추적을 진행하더라구요. 사실 경로 탐색을 진행하는게 순방향인지 역방향인지 자체는 성능에 영향을 미치지 않습니다만, n-gram 언어모델을 캐싱하는데에는 순방향이 훨씬 유리합니다. 0.5버전에서 Kneser-Ney smoothing을 적용한 n-gram 언어 모델을 바탕으로 형태소가 출현할 확률을 계산하도록 알고리즘을 교체하였는데요, 이게 약 2만 여개의 형태소..

프로그래밍/NLP 2018. 12. 9. 23:23

[기계 번역] 이중 언어 데이터에서의 단어 임베딩 (Bilingual Word Embeddings from Non-Parallel Document Data)

서론기계 번역은 (사실은 꽤 오래전부터지만) 최근 엄청나게 떠오르고 있는 Hot한 연구 분야입니다. 특히 몇년전 Google이 Google 번역에 딥러닝을 도입하고, 네이버가 파파고를 출시하면서 외국어 공부가 필요없는 세상이 다가오는 것처럼 보이기도 합니다. 기계 번역 분야는 정말 미래가 기대되는 연구 분야라고 할 수 있겠습니다.딥러닝을 통한 기계 번역 기술의 비약적인 발전에는 단어 임베딩(Word Embedding)이라는 뿌리가 있습니다. 단어 임베딩 기법에 대해서는 예전에 Gaussian LDA를 소개하면서 잠깐 언급한 적이 있습니다. 단어 임베딩이란 각각의 단어를 숫자로 표현하는데, 그 때 그 숫자들이 단어의 의미를 반영할 수 있도록 하는 것이라고 한 줄 요약할 수 있겠지요.결국 컴퓨터는 모든 데이..

그냥 공부 2018. 11. 30. 18:19

한국어 고문헌 검색기 '어듸메' 개발기

예전에 국문학 전공하는 선배와 이야기를 나누다가, 어쩌다보니 한국어 역사자료를 검색하는게 굉장히 어렵다는 얘기를 듣게 된 적이 있습니다. 그래서 세종계획에서 구축한 역사자료 말뭉치를 구해서 이를 편하게 검색해주는 시스템을 만들어봐야겠다고 작년 이맘때쯤에 마음을 먹었습니다.그런데 역사자료를 TEI 포맷으로 구축해놓았는데 생각보다 전산처리하기에 퀄리티가 많이 나쁘더라구요. 닫는 태그를 빼먹는다는지... 기호를 〈〉 기호로 써놓았다던지... 열고 닫는 짝이 안 맞는 일은 예사고, 에러가 너무 많아 이를 코드상으로 수정해가면서 파일을 읽으려고 했으나 쉽지 않아서, 그 꿈은 접어두고 말았습니다. 그런데 최근 https://ithub.korean.go.kr/user/total/referenceManager.do 역..

잉여 2018. 11. 22. 01:22

[Tensorflow] 문자 인식용 신경망 Python3 코드

고문헌의 textualis로 쓰인 글자를 인식하기 위해서 사용한 신경망입니다. https://medium.com/@akashg/character-recognition-using-tensorflow-a93dbbdf4af 코드를 참고하여 작성하였구요, tensorflow와 scikit-learn이 설치되어 있어야 작동합니다. 신경망의 구조는 다음과 같습니다. INPUT (크기: nImgSize * nImgSize) ↓ activation: sigmoid LAYER1 (크기: layer1) ↓ activation: sigmoid LAYER2 (크기: layer2) ↓ activation: softmaxOUTPUT (크기: nClasses) 고문헌 라틴어를 인식하는 작업에 imgSize = 32, layer1 ..

프로그래밍/NLP 2018. 11. 14. 18:28

라틴어 고문헌 OCR 성능 개선시킨 후기

서양 고전을 연구하시는 분들에게는 Google Books나 Archive의 고전 문헌 스캔 및 공개 서비스는 꽤나 큰 도움이 됩니다. 해당 문헌을 보기 위해 직접 산넘고 물건너 비행기 타고 먼 외국의 대학까지 가는 대신, 집에 앉아서 인터넷으로 클릭 몇 번으로 고문헌들을 살펴볼 수 있으니깐요. 게다가 단순히 스캔한 이미지 파일 뿐만 아니라 텍스트를 스캔하여두었기 때문에 텍스트 검색도 지원한다는 것이 큰 장점입니다. 전체 문헌을 일일히 살펴보지 않아도 검색을 통해 필요한 페이지만 찾아볼 수 있으니깐요! 그런데 사실 약간의 문제가 있습니다. 고전 문헌에 쓰인 글자체가 오늘날의 글자 모양과는 조금 달라서 OCR시 잘못 인식되는 경우가 많다는 겁니다. 활자본은 그나마 낫습니다. 수기로 작성한 문헌은... 글자 ..

잉여 2018. 11. 14. 18:22

단어 의미의 역사적 변천을 추적하기

이번 소개할 논문은 자연언어처리 기법을 응용하여, 라틴어의 각 단어들이 가지는 의미가 시기에 따라 어떻게 변화했는지 추적한 재미난 논문입니다. David Bamman과 Gregory Crane의 Measuring Historical Word Sense Variation이라는 논문인데요, 이 저자분들은 페르세우스 프로젝트의 선임 연구원들입니다. 페르세우스 프로젝트는 서양의 고전 문학 텍스트들을 수집하고 전산화하여 제공하는 프로젝트라고 할 수 있는데요, 이를 통해 다량의 고전 헬라어, 라틴어 텍스트들이 수집되고 공개되었습니다. 개인적으로 고전 인문학에 전산학을 접목한 아주 적절한 프로젝트라고 생각하는데요, 여기서 공개된 텍스트 데이터를 바탕으로 제 살아있는 라틴어 사전 및 살아있는 헬라어 사전도 만들어질 수..

그냥 공부 2018. 11. 12. 16:13

[Python] 임의의 웹 페이지에서 텍스트를 추출하기

텍스트 마이닝을 하는 데에 있어 텍스트 데이터를 수집하는것은 아주 중요합니다. 아무리 휘황찬란한 텍스트 분석 기술이 있어도 분석할 텍스트가 없다면 쓸모가 없으니깐요. 과거였다면 대량의 텍스트 데이터를 구하는게 어려운 작업이었겠지만, 현재는 다행히도 웹으로부터 (정제되지는 않았지만) 수많은 텍스트를 구할 수 있습니다. 웹 페이지에서 텍스트를 추출하는 작업은 의외로 간단합니다. 웹 페이지들은 HTML이라는 마크업 랭귀지로 구성되어 있고, 여기에서 필요한 텍스트만을 뽑아오는건 HTML 파서나 정규표현식 등을 이용해 쉽게 이뤄질 수 있기 때문입니다. 다만 문제는 우리가 보는 웹 페이지에는 실제 알맹이보다 다양한 껍데기들이 많다는 것입니다. 위 사진은 한 신문사의 기사 페이지입니다. 이 페이지의 알맹이는 기사 내..

프로그래밍 2018. 11. 4. 15:34

[Python] 호환용 한자를 통합 한자로 변환하기

한때 국내를 평정했던 한국어 문자 인코딩 규격인 KS X 1001에는 정말 많고 많은 문제가 있습니다... 다행히도 유니코드의 등장으로 레거시 시스템을 제외하고는 대부분 문자 인코딩 셋이 유니코드로 대통일되고 있는 상황이지만, 아직도 그 잔재가 끼치는 악영향은 이루 말할 수 없죠.. 대표적인 문제 중 하나는 같은 한자인데 발음이 다르다는 이유로 문자 코드에 중복 배당을 하여, 모양은 같지만 코드 상으로는 다른 글자가 수없이 생겨났다는 겁니다. 이 문제의 자세한 정보에 대해서는 나무위키 문서를 참조하시면 좋을 듯 합니다. 현재 유니코드에는 통합 한자와 호환용 한자라는 두 종류의 한자가 배당되어 있습니다. 통합 한자는 말 그대로 모양이 같은(거의 유사한) 한자들은 같은 코드로 합친 영역을 말하며, 호환용 한..

프로그래밍 2018. 10. 28. 23:10

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

블로그 이미지

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

댓글

태그

영어구조론 토픽 모델링 우리역사바로알기대회 Direct3D 한국고대경제와사회 c++ kiwi 리듬게임 자연언어처리 BigFloat 라틴어 NLP 정보조직론 python php pg어 텍스트 마이닝 문헌정보통계 포니게임 악보

방문자

오늘
어제
전체

페이징

이전
1 ··· 4 5 6 7 8 9 10 ··· 69
다음
나의 큰 O는 log x야
메일 bab2min@gmail.com
Skin Images are from Stinkehund.

티스토리툴바