'분류 전체보기' 카테고리의 글 목록 (6 Page)

[c++] 빠른 log sigmoid 계산

sigmoid 함수는 연속이고 미분가능하면서 비선형이라는 특징 덕분에 여러 기계 학습 및 신경망에 두루 쓰이는 함수이죠. 최근에 word2vec을 확장한 모형을 공부하면서 목적함수에 log sigmoid를 잔뜩 사용하는 코드를 구현한 적이 있었는데, log sigmoid 계산 비용이 꽤나 컸기에 전반적인 속도 향상에 어려움이 있었습니다. 그래서 Look Up Table을 이용해 최적화를 실시했었는데 그 결과를 포스팅으로 공유하고자 합니다. 먼저 log sigmoid 함수는 다음과 같이 정의됩니다. 이름처럼 sigmoid 함수에 log를 취한 형태이구요, 그 그래프 모양은 다음과 같습니다. 전 범위에서 음수 값을 가지며, x > 0일는 그 값이 0에 극도로 가까워집니다. 이 함수를 계산하기 위해서는 exp..

프로그래밍 2019. 1. 2. 01:26

자동 요약 기법의 연구 동향 정리

사람들은 대체로 긴 글을 읽는 것을 좋아하지 않습니다. 모든 것이 빨리 변하고, 새로운 것이 하루가 멀다 쏟아지는 세상에서, 읽어야할 글 역시 폭발적으로 늘어나고 있기 때문에 천천히 모든 글을 읽어가며 따라가는 것이 현대인들에게는 특히 더 버거운 것 같습니다. 게시물에 세 줄 요약을 달아놓는 것이 괜히 웹 커뮤티니 상에서의 미덕이 된것이 아니겠지요. 귀찮은 일이 있으면 그걸 도구를 사용해서 간편하게 바꾸려고 하는것 또한 인간의 본성입니다. 그래서 당연히 긴 글을 자동적으로 요약해주는 시스템을 만들고자 여러 학자들이 수십년 동안 연구해왔는데요, 이번 포스팅에서는 자동 요약 기법 전반에 대해서 간단하게 살펴보고, 최근 연구 동향은 어떤지 정리해보고자 합니다.주로 다음 논문의 내용을 참조하였습니다.Gambhi..

그냥 공부 2018. 12. 28. 03:22

[Kiwi] 지능형 한국어 형태소 분석기 0.6버전 업데이트

최근 Kiwi 형태소 분석기 0.6 버전 업데이트를 실시했습니다. 사실 엄청 바뀐건 없고, 이전 버전에서 사용하던 최적화를 좀더 한 단계 끌어올리는 작업을 수행했습니다. 0.4버전에서 도입한 그래프 기반 경로 탐색 알고리즘의 경우, 이상하게도 끝쪽에서 앞쪽으로 분석을 진행했습니다. 당시에 왜 이렇게 설계했는지 모르겠는데, 개발하고 보니, 역방향으로 추적을 진행하더라구요. 사실 경로 탐색을 진행하는게 순방향인지 역방향인지 자체는 성능에 영향을 미치지 않습니다만, n-gram 언어모델을 캐싱하는데에는 순방향이 훨씬 유리합니다. 0.5버전에서 Kneser-Ney smoothing을 적용한 n-gram 언어 모델을 바탕으로 형태소가 출현할 확률을 계산하도록 알고리즘을 교체하였는데요, 이게 약 2만 여개의 형태소..

프로그래밍/NLP 2018. 12. 9. 23:23

[기계 번역] 이중 언어 데이터에서의 단어 임베딩 (Bilingual Word Embeddings from Non-Parallel Document Data)

서론기계 번역은 (사실은 꽤 오래전부터지만) 최근 엄청나게 떠오르고 있는 Hot한 연구 분야입니다. 특히 몇년전 Google이 Google 번역에 딥러닝을 도입하고, 네이버가 파파고를 출시하면서 외국어 공부가 필요없는 세상이 다가오는 것처럼 보이기도 합니다. 기계 번역 분야는 정말 미래가 기대되는 연구 분야라고 할 수 있겠습니다.딥러닝을 통한 기계 번역 기술의 비약적인 발전에는 단어 임베딩(Word Embedding)이라는 뿌리가 있습니다. 단어 임베딩 기법에 대해서는 예전에 Gaussian LDA를 소개하면서 잠깐 언급한 적이 있습니다. 단어 임베딩이란 각각의 단어를 숫자로 표현하는데, 그 때 그 숫자들이 단어의 의미를 반영할 수 있도록 하는 것이라고 한 줄 요약할 수 있겠지요.결국 컴퓨터는 모든 데이..

그냥 공부 2018. 11. 30. 18:19

한국어 고문헌 검색기 '어듸메' 개발기

예전에 국문학 전공하는 선배와 이야기를 나누다가, 어쩌다보니 한국어 역사자료를 검색하는게 굉장히 어렵다는 얘기를 듣게 된 적이 있습니다. 그래서 세종계획에서 구축한 역사자료 말뭉치를 구해서 이를 편하게 검색해주는 시스템을 만들어봐야겠다고 작년 이맘때쯤에 마음을 먹었습니다.그런데 역사자료를 TEI 포맷으로 구축해놓았는데 생각보다 전산처리하기에 퀄리티가 많이 나쁘더라구요. 닫는 태그를 빼먹는다는지... 기호를 〈〉 기호로 써놓았다던지... 열고 닫는 짝이 안 맞는 일은 예사고, 에러가 너무 많아 이를 코드상으로 수정해가면서 파일을 읽으려고 했으나 쉽지 않아서, 그 꿈은 접어두고 말았습니다. 그런데 최근 https://ithub.korean.go.kr/user/total/referenceManager.do 역..

잉여 2018. 11. 22. 01:22

[Tensorflow] 문자 인식용 신경망 Python3 코드

고문헌의 textualis로 쓰인 글자를 인식하기 위해서 사용한 신경망입니다. https://medium.com/@akashg/character-recognition-using-tensorflow-a93dbbdf4af 코드를 참고하여 작성하였구요, tensorflow와 scikit-learn이 설치되어 있어야 작동합니다. 신경망의 구조는 다음과 같습니다. INPUT (크기: nImgSize * nImgSize) ↓ activation: sigmoid LAYER1 (크기: layer1) ↓ activation: sigmoid LAYER2 (크기: layer2) ↓ activation: softmaxOUTPUT (크기: nClasses) 고문헌 라틴어를 인식하는 작업에 imgSize = 32, layer1 ..

프로그래밍/NLP 2018. 11. 14. 18:28

라틴어 고문헌 OCR 성능 개선시킨 후기

서양 고전을 연구하시는 분들에게는 Google Books나 Archive의 고전 문헌 스캔 및 공개 서비스는 꽤나 큰 도움이 됩니다. 해당 문헌을 보기 위해 직접 산넘고 물건너 비행기 타고 먼 외국의 대학까지 가는 대신, 집에 앉아서 인터넷으로 클릭 몇 번으로 고문헌들을 살펴볼 수 있으니깐요. 게다가 단순히 스캔한 이미지 파일 뿐만 아니라 텍스트를 스캔하여두었기 때문에 텍스트 검색도 지원한다는 것이 큰 장점입니다. 전체 문헌을 일일히 살펴보지 않아도 검색을 통해 필요한 페이지만 찾아볼 수 있으니깐요! 그런데 사실 약간의 문제가 있습니다. 고전 문헌에 쓰인 글자체가 오늘날의 글자 모양과는 조금 달라서 OCR시 잘못 인식되는 경우가 많다는 겁니다. 활자본은 그나마 낫습니다. 수기로 작성한 문헌은... 글자 ..

잉여 2018. 11. 14. 18:22

단어 의미의 역사적 변천을 추적하기

이번 소개할 논문은 자연언어처리 기법을 응용하여, 라틴어의 각 단어들이 가지는 의미가 시기에 따라 어떻게 변화했는지 추적한 재미난 논문입니다. David Bamman과 Gregory Crane의 Measuring Historical Word Sense Variation이라는 논문인데요, 이 저자분들은 페르세우스 프로젝트의 선임 연구원들입니다. 페르세우스 프로젝트는 서양의 고전 문학 텍스트들을 수집하고 전산화하여 제공하는 프로젝트라고 할 수 있는데요, 이를 통해 다량의 고전 헬라어, 라틴어 텍스트들이 수집되고 공개되었습니다. 개인적으로 고전 인문학에 전산학을 접목한 아주 적절한 프로젝트라고 생각하는데요, 여기서 공개된 텍스트 데이터를 바탕으로 제 살아있는 라틴어 사전 및 살아있는 헬라어 사전도 만들어질 수..

그냥 공부 2018. 11. 12. 16:13

나의 큰 O는 log x야

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

분류 전체보기

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

댓글

태그

방문자

페이징

티스토리툴바