'분류 전체보기' 카테고리의 글 목록 (2 Page)

Lamon : 라틴어 품사 태거 개발기

사람의 언어를 이해하기 위해 컴퓨터가 하는 가장 기본적인 작업은 텍스트에서 단어를 인식하고 그 단어들의 특성을 파악하는 것입니다. 흔히 품사 태거(Part-of-speech Tagger, POS Tagger)라고 부르는 이 도구는 각 단어의 품사를 파악해주는 일을 수행합니다. 문법과 어휘는 언어별로 크게 상이하게 때문에 품사 태거는 각 언어에 맞춰서 개발되어야 하는데요 이 때문에 언어별로 다양한 태거들이 개발되어 왔습니다. 영어는 가장 먼저 품사 태거가 연구된 언어이고, 축적된 데이터와 기법들이 많아 현재는 95% 이상의 정확도(이 정도면 사람과 대등한 수준이라 볼 수 있습니다)로 품사 분석을 수행할 수 있습니다. 반면 한국어의 경우 단어가 단순히 띄어쓰기로 구분되지 않고 여러 형태소가 결합해 하나의 어..

프로그래밍/NLP 2020. 10. 20. 03:04

[C++] EigenRand 0.3.0: 다변량 분포 추가

개발 동기 이전에 EigenRand라고 Eigen용 난수생성기를 개발한 적이 있는데요, 왜 다변량 분포(multivariate distribution) 지원은 없냐는 문의가 종종 들어오더라구요. 곰곰히 생각해보니 벡터와 행렬을 다루는 라이브러리에서 다변량 분포를 전혀 지원하지 않는게 이상해보여서 추가하기로 마음먹었습니다. 현재 C++표준에는 다변량 분포와 관련된 함수가 없기 때문에 통계/과학 연산을 위해서 널리 쓰이고 있는 Python 라이브러리인 scipy를 참고로하여 추가할 기능들을 정리해보았습니다. 대표적으로 통계학 분야에서 자주 쓰이는 다변량 분포에는 다음과 같은 것들이 있다고 합니다. 다변량 정규분포(Multivariate Normal Distribution) 다항 분포 (Multinomial ..

프로그래밍 2020. 10. 17. 21:50

[c언어] 수열의 부분 합(Prefix Sum) 구하기 - 어떤 방법이 더 빠르고 정확할까

수열의 부분합 구하기! 중고등학교 수학시간에 많이 했던 일이죠. 어떤 수열 X가 a, b, c, d ... 와 같은 식으로 있다면 부분합(Prefix Sum, 혹은 Scan) S는 다음과 같이 계산됩니다.S1: a S2: a + b S3: a + b + c S4: a + b + c + d수학시간에서는 이 부분합 수열의 일반항을 구하는 일을 주로 했지만, 컴퓨터 과학에서는 이 수열의 각 항을 빠르고 효율적으로 (또 정확히) 계산하는 방법에 대해 논하게 됩니다. 이 부분합을 구해서 어디에 쓰나 싶지만, 의외로 여러 분야에서 널리 쓰이고 있습니다. 대표적인 사례로 누적분포(cumulative distribution)을 구하는 작업이 있겠습니다. 이는 특정 임의 분포에서 표본을 추출하는데 자주 사용됩니다. 예를..

프로그래밍/테크닉 2020. 7. 12. 19:01

범용적인 감정 분석(극성 분석)은 가능할까

텍스트의 긍정과 부정을 분류한다는건 생각보다 까다로운 일입니다. 사람들이 특정 대상에 대해 긍정 혹은 부정 감정을 드러낼때 직설적으로 좋다/나쁘다고 표현하는 경우도 있지만, 우회적으로 이야기하거나, 비유를 들거나, 비꼬는 경우도 많기 때문이죠. 이런 우회적인 표현 방법은 같은 언어라할지라도 분야에 따라서 크게 달라질 수 있습니다. 그래서 특정 분야에 맞춰 학습시킨 감정 분석 모델은 다른 분야에서는 형편 없는 성능을 보이는 경우가 있습니다.그래서 대학원 다니면서 항상 고민했던게 '요 감정 분석 모델을 저 분야에 적용해도 될까?'였습니다. 더 나아가 여러 분야에서 두루두루 쓰일 수 있는 감정 분석 모델이 있으면 좋겠다는 생각도 했었구요. 이에 대해서 어떤 선배님과 논의한 적도 있는데요, 선배님은 분야별 특성..

프로그래밍/NLP 2020. 7. 8. 22:29

[C++] EigenRand: Eigen용 Random Library 개발

Eigen는 Random 지원이 빈약하다최근 c++로 tomotopy라는 토픽모델링 툴을 개발하면서 벡터화 가속을 위해서 Eigen이라는 라이브러리를 가져다 썼습니다. Eigen은 여러 곳에서 널리 사용되는 선형대수 연산용 C++ 라이브러리로, 사실상 이쪽 업계의 표준 아닌 표준이라고 할 수 있습니다. 오랫동안 검증되고 최적화되었기 때문에 Eigen 라이브러리만 가져다 쓰는 것으로도 충분히 속도 향상을 이룰 수 있었습니다. 다만 여러 확률 분포를 이용하는 토픽 모델링의 특성상 코드 내에서 확률 분포 내에서 임의의 숫자를 샘플링하는 작업을 굉장히 자주 반복해야하는데 불행히도 Eigen에는 랜덤 관련 함수 지원이 크게 부족했습니다. 일례로 현재 3.3.7버전에서 제공하는 Random함수는 다음 한 가지가 전..

프로그래밍 2020. 6. 27. 18:09

github의 master/slave 표현 교체 권고에 관한 생각

2147483647번째 평행 우주의 이야기로 시작해보겠습니다. 일본제국이 2차세계대전에서 승리했고 조선은 독립하지 못했습니다. 독립을 외쳤던 수많은 조선인들은 끔찍하게 죽었고, 남은 조선인들은 일본제국의 2등 시민으로 살아가게 되었습니다. 2등시민 조선인들은 반도에 산다하여 반도인이라고 불리고, 이에 대비하여 일본에 살던 1등시민들은 내지인이라 불렸습니다. 많은 반도인들은 강제로 징용당해 이곳저곳으로 끌려가 일하며 각지에 반도촌을 이루게 되었구요. 세월이 흘러 인권과 평등에 대한 의식이 높아지자 반도인과 내지인 간의 차별은 금지되었고 법적으로는 평등한 세상이 다가왔습니다. 그러나 차별이 백 년 넘게 이어지는 동안 가랑비에 옷 젖듯 일본어에서 '내지'라는 표현은 좋은 것, 지배하는 것을 나타내는 의미의 단..

잉여/미래 2020. 6. 17. 02:55

[Python] tomotopy로 Correlated Topic Model 수행하고 시각화하기

이전 포스팅에서 Correlated Topic Model을 통해서 뉴스 기사를 분석하고 주제 간의 상관관계를 뽑아낸 적이 있습니다. 최근 tomotopy에 CTM을 추가해서 누구나 쉽게 따라해볼 수 있게 된 김에 간단하게 따라해볼 수 있는 코드를 공유드립니다! 기본 코드는 tomotopy github의 예제코드(https://github.com/bab2min/tomotopy/blob/master/examples/ctm_network.py)와 동일하되, 전처리 부분만 한국어 전용으로 변경되었습니다. import tomotopy as tp # 토픽 모델링에 사용할 패키지 from kiwipiepy import Kiwi # 한국어 형태소 분석에 사용할 패키지 from pyvis.network import Ne..

프로그래밍/NLP 2020. 6. 9. 22:37

[토픽 모델링] Generalized DMR 토픽 모델

Dirichlet Multinomial Regression(DMR)이라는 토픽 모델이 있습니다. 예전 포스팅에서 간단하게 다뤘던 적이 있는데요, 간단하게 정리해보자면, 단순 LDA 모델의 경우 문헌별 주제 분포만을 살펴볼 수 있는 반면, DMR은 메타데이터별 주제 분포를 추정할 수 있는 강점이 있습니다. 여기서 메타데이터는 문헌이 가지는 실제 데이터를 제외한 부가적인 변수들을 가리킨다고 생각하시면 쉽습니다. 예를 들어 저자명이나 저널명, 작성 연도 같은 데이터가 있겠습니다. 즉, DMR을 이용하면 작성자별 주제분포나 작성 연도별 주제 분포 등을 계산하는게 가능해진다는 것이지요. 단순하게 문헌별 주제분포를 추정하는것보다 훨씬 유용하게 쓰일 수 있을 것이라고 짐작이 가지요?그런데 DMR 모델에는 치명적인 약..

그냥 공부 2020. 6. 6. 16:31

나의 큰 O는 log x야

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

분류 전체보기

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

댓글

태그

방문자

페이징

티스토리툴바