'분류 전체보기' 카테고리의 글 목록 (8 Page)

[Python] 디리클레 분포 추정하기

토픽 모델링 이론들을 공부하다 보니 종종 깁스 샘플링 이후에 디리클레 분포를 추정하는 방법을 사용하는걸 봤었는데, 매번 봐도 잘 이해도 못하고 계속 까먹길래 아예 까먹지 포스팅을 하나 파둡니다. 디리클레 분포(Dirichlet Distribution)은 다항 분포에 대한 분포라는 건 잘 알고 계실 겁니다. 예를 들어 토픽 모델링과 같은 상황에서, 각 주제는 단어들에 대한 다항 확률 분포이므로, 주제의 분포는 다항 분포에 대한 분포, 즉 디리클레 분포가 되죠. 디리클레 분포에서 임의의 다항 (확률) 분포를 뽑아낼 수 있고, 다항 분포에서는 n지선다에서 하나를 뽑아낼 수 있습니다. 이런 유용성 때문에 토픽 모델링에서 디리클레 분포는 널리 쓰입니다. 디리클레 분포는 하이퍼 파라미터를 하나 가집니다. 흔히 α라..

그냥 공부 2018. 9. 3. 17:59

코퍼스 내에서 알려지지 않은 새로운 명사(미등록어)를 추출하기

한국어에 대한 자연언어처리를 실시할 때 맞닥뜨리는 가장 큰 문제는 새로운 단어를 나타나면 분석기가 얘를 파악하지 못하고 제멋대로 분해해버린다는 겁니다. 고유명사나 외래어가 많이 포함된 텍스트를 분석할때 이런 문제가 크게 두드러지는 데요, 예를 들면 다음과 같은 문제인거죠. 한국어 형태소 분석기를 계속 최신으로 업데이트하며 새로운 고유명사들을 추가해준다고 해도 새로운 단어가 만들어지는 속도를 따라잡을 수는 없기 때문에 이는 큰 문제입니다. 위의 예시를 가져온 연구에서는 형태소 분석 후 후처리로 PMI를 이용해 이 값들이 높은 형태소 쌍을 다시 묶어주는 방법으로 이 문제를 해결하고자 했습니다. 저런 문제로 계속 고민을 하던 중에 최근 https://github.com/lovit/soynlp 에서 간단한 통계..

그냥 공부 2018. 9. 2. 15:48

[토픽 모델링] 가우시안 LDA 모델 - Word2Vec과 결합한 LDA

최근 단어 임베딩(Word Embedding)이 매우 뜨겁게 떠오르고 있습니다. 단어 임베딩 이전의 자연언어처리에서는 각각의 단어를 모두 독립적인 존재로 보고 번호를 붙여주는 방식으로 언어 처리를 실시했습니다. 예를 들어 {옷, 의류, 의복}이라는 단어가 있으면 옷 = 0, 의류 = 1, 의복 = 2 처럼 임의로 번호를 붙여준 것이죠. 0, 1, 2번에는 아무런 의미가 없고 단지 계산을 편리하게 하기 위해 정수를 붙인것 뿐입니다. 이를 통해 간편하게 0번이 몇번 등장하는지, 1번이 몇번 등장하는지 등을 셀 수 있고 이 빈도가 전체 문헌의 의미를 나타낸다고 가정하여 분석을 진행했었죠.하지만 단어 임베딩 기법에서는 각 단어를 임의의 차원의 실수로 대응시킵니다. 옷 = (0.1, 0.1), 의류 = (0.2,..

그냥 공부 2018. 8. 5. 21:07

[c++] 템플릿 메타 프로그래밍으로 르장드르 다항식 계산하기

르장드르 다항식은 [-1, 1] 구간에서 직교(orthogonality)하는 다항식들의 집합을 가리킵니다. 다항식들간에 서로 직교하면서, 간단하게 곱셈과 덧셈만으로 계산이 가능하다는 특징 덕분에 물리학이나 공학 등의 분야에서 특정 상태를 근사하여 풀 때 직교 기저로 자주 사용합니다. 저 역시도 최근 연구에서 임의의 모양을 띈 다차원 공간의 함수를 근사하기 위해서 이 다항식을 사용했는데요, 이를 위해서 르장드르 다항식을 구현하여 L-BFGS 함수식에 넣어 그 값을 계산해야 할 일이 있었습니다.이 다항식은 재귀적 방법이나 조합식을 이용하여 쉽게 계산될 수 있지만, 이를 매번 함수 값을 구할때마다 반복할 수 없으므로 컴파일 타임에 처리하고자 템플릿 메타 프로그래밍(template meta programming..

프로그래밍/테크닉 2018. 7. 8. 18:26

사회과학 연구방법론

1. 서론연구방법론은 왜 필요한가?- 연구방법론은 선배 연구자들에 의해 오랜 시간 동안 검증된 방법. 이를 활용하면 연구가 잘못된 결과로 나아가는 것을 최소화할 수 있음. (가이드)- 그 결과 유효한 사회 과학 연구, 타당성 있는 연구를 진행하기 위해 (타당성)- 연구자와 연구 소비자 간의 의사소통 수단. 예를 들어 t값, p값을 제시하는 것만으로 이 연구가 가지는 의미를 간결하고 쉽게 표현할 수 있음(의사소통) 우리는 어떻게 알게 되는가?- 개인적 경험: 소수에게만 적용 가능, 제한적, 주관적- 전통이나 관습, 주변인 (미신, 속설 등): 축적된 지혜, 문화적 편견 개입 가능성, 근거가 제한적- 전문가: 신용과 자격, 기록으로 남는 성과, 물리적인 실체가 있는 경우 많음(이론, 논문, 자격증 등) 알기..

수업노트 2018. 6. 28. 23:16

[토픽 모델링] LDA에 용어 가중치를 적용하기

지금까지 다양한 토픽 모델링 기법들을 살펴보았는데요, 곰곰히 생각해보면 여태까지 다룬 모든 토픽 모델들은 다 각각의 단어를 동등하게 보았습니다. the나 topic이나 model이나 project나 어떤 단어이던간에 순서나 위치에 상관없이 문헌 속에 몇 번 등장했느냐만을 고려했기 때문이지요. bag-of-words 모형이라고 하는데 이는 결국 모든 단어를 그 등장횟수로만 판단하겠다는 간결한 가정입니다. 그런데 말입니다, 과연 모든 단어를 동등하게 보는것이 맞을까요? 간단히 생각해봐도 the와 topic이라는 단어는 동등하게 볼 수 없을것 같습니다. the는 어디서나 쓰이는 흔한 단어라서 아무런 의미가 없고반면 topic은 주제를 드러내는데 도움이 되니까요. 그래서 LDA와 같은 토픽 모델의 성능을 높이기..

그냥 공부 2018. 6. 26. 18:19

[Python3] 손상된 ZIP 압축 파일 복구하기

며칠 전에 서버에서 작업을 진행하다가 용량 문제 때문에 잘 안 쓰는 대량의 파일들을 zip으로 압축해둔적이 있습니다. 문제는 zip 포맷의 한계로 4GB 이상의 파일을 다룰수가 없다는 문제가 있는걸 모르고 그냥 압축을 진행한 뒤 생성된 압축파일을 검증하지도 않고 그냥 원본 파일들을 다 지워버렸던 거죠. 뒤늦게 알아차리고 zip파일 압축을 해제하려고 했으나 손상된 파일이라며 압축 해제를 계속 실패했습니다... Archive: archive.zip End-of-central-directory signature not found. Either this file is not a zipfile, or it constitutes one disk of a multi-part archive. In the latter ..

프로그래밍 2018. 6. 24. 03:00

Kneser-Ney 언어 모형을 활용한 한국어 초성체 해석기 개발

사실 초성체 해석기에 대한 생각은 말년 병장 때 할일 없어서 처음 떠올렸었습니다. 세종 말뭉치 통계 자료가 때마침 있었고, (사지방 시간도 꽤 있었고) PHP를 굴릴 수 있는 웹 서버도 하나 가지고 있었기에, 간단하게 단어의 초성을 추출해서 P(단어 | 초성) 을 계산하는 방식을 선택하기로 했죠. 각각의 단어가 다 독립이므로, 문장을 추론하는데에는 하나도 도움이 안되는 단순 멍청한 모델이었다고 할 수 있겠죠. (열악한 환경에서 하루만에 만드려니 어쩔수 없었다고 변명을 대어봅니다.) 최근 Modified Kneser Ney Smoothing을 적용한 N-gram Language Model를 공부하면서 이를 초성체 해석에 사용할 수 있다는 걸 깨달았습니다. 시험 삼아 초성체를 해독하는 도구를 짜보았는데, 이..

프로그래밍/NLP 2018. 6. 17. 03:01

나의 큰 O는 log x야

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

분류 전체보기

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

댓글

태그

방문자

페이징

티스토리툴바