'그냥 공부' 카테고리의 글 목록 (2 Page)

[토픽모델링] 상관 토픽 모델(Correlated Topic Model)

오랜만의 토픽 모델링 공부입니다. 오늘 포스팅할 토픽 모델은 Correlated Topic Model(CTM)입니다. 이 모델의 특징은 이름에서 알 수 있듯이 주제 간의 상관 관계를 고려할 수 있다는 것입니다. 이 모델은 LDA 토픽 모델을 개발하여 토픽 모델링이라는 기법을 태동시킨 장본인인 D. Blei가 2006년에 개발한 LDA의 업그레이드된 모형이라고 할 수 있습니다. LDA는 CTM과는 다르게 주제 간의 상관 관계를 모형화하는 능력이 없습니다. 즉 각각의 주제가 항상 독립적이라고 가정을 했는데, CTM은 이를 개선하여 특정 주제가 등장하면 이와 연관된 다른 주제가 함께 등장할 가능성이 높다는 사실을 활용한다는게 특징입니다. 본 포스팅은 다음 논문을 참조하여 작성하였습니다. Blei, D., & ..

그냥 공부 2019. 8. 8. 01:32

단순하지만 강력한 Smooth Inverse Frequency 문장 임베딩 기법

자연언어처리 분야에서 임베딩 기법은 자연언어를 수치의 형태로 효과적으로 표현한다는 강점 때문에 최근 널리 사용되고 있습니다. 대표적인 것이 단어 임베딩 기법인데, Word2Vec, GloVe, FastText 등이 있지요. 이들은 단어의 의미를 벡터 공간 상의 점으로 표현하는데, 그 점이 단어의 실제 의미를 반영한다는 점에서 의미가 크지요. 그러나 많은 텍스트 처리 기법들은 단어 이상의 단위를 처리할 것을 요구받습니다. 문장이나 문단, 혹은 문헌처럼 말이지요. 따라서 당연히 문장 전체나 문단 등 그보다 큰 단위에 대해 임베딩을 실시하려는 시도가 있었습니다.본 포스팅에서는 유명한 문장 임베딩 기법들과 함께, 간단하지만 강력한 문장 임베딩 기법인 SIF(Smooth Inverse Frequency)에 대해 ..

그냥 공부 2019. 4. 24. 21:18

단어 임베딩을 이용한 추출적 텍스트 요약 기법

오늘 살펴볼 논문은 추출적 텍스트 요약 기법(Extractive Text Summarization)에 단어 임베딩을 적용하는 간단한 방법을 통해 비지도 방법으로 높은 텍스트 요약 성능을 보인 기법에 대한 것입니다. 아이디어는 정말로 간단한데 성능이 강력하니 이보다 좋을 수 없지요. 간략하게 어떤 기법인지 살펴보도록 하겠습니다. Rossiello, G., Basile, P., & Semeraro, G. (2017). Centroid-based text summarization through compositionality of word embeddings. In Proceedings of the MultiLing 2017 Workshop on Summarization and Summary Evaluation..

그냥 공부 2019. 2. 8. 01:58

자동 요약 기법의 연구 동향 정리

사람들은 대체로 긴 글을 읽는 것을 좋아하지 않습니다. 모든 것이 빨리 변하고, 새로운 것이 하루가 멀다 쏟아지는 세상에서, 읽어야할 글 역시 폭발적으로 늘어나고 있기 때문에 천천히 모든 글을 읽어가며 따라가는 것이 현대인들에게는 특히 더 버거운 것 같습니다. 게시물에 세 줄 요약을 달아놓는 것이 괜히 웹 커뮤티니 상에서의 미덕이 된것이 아니겠지요. 귀찮은 일이 있으면 그걸 도구를 사용해서 간편하게 바꾸려고 하는것 또한 인간의 본성입니다. 그래서 당연히 긴 글을 자동적으로 요약해주는 시스템을 만들고자 여러 학자들이 수십년 동안 연구해왔는데요, 이번 포스팅에서는 자동 요약 기법 전반에 대해서 간단하게 살펴보고, 최근 연구 동향은 어떤지 정리해보고자 합니다.주로 다음 논문의 내용을 참조하였습니다.Gambhi..

그냥 공부 2018. 12. 28. 03:22

[기계 번역] 이중 언어 데이터에서의 단어 임베딩 (Bilingual Word Embeddings from Non-Parallel Document Data)

서론기계 번역은 (사실은 꽤 오래전부터지만) 최근 엄청나게 떠오르고 있는 Hot한 연구 분야입니다. 특히 몇년전 Google이 Google 번역에 딥러닝을 도입하고, 네이버가 파파고를 출시하면서 외국어 공부가 필요없는 세상이 다가오는 것처럼 보이기도 합니다. 기계 번역 분야는 정말 미래가 기대되는 연구 분야라고 할 수 있겠습니다.딥러닝을 통한 기계 번역 기술의 비약적인 발전에는 단어 임베딩(Word Embedding)이라는 뿌리가 있습니다. 단어 임베딩 기법에 대해서는 예전에 Gaussian LDA를 소개하면서 잠깐 언급한 적이 있습니다. 단어 임베딩이란 각각의 단어를 숫자로 표현하는데, 그 때 그 숫자들이 단어의 의미를 반영할 수 있도록 하는 것이라고 한 줄 요약할 수 있겠지요.결국 컴퓨터는 모든 데이..

그냥 공부 2018. 11. 30. 18:19

단어 의미의 역사적 변천을 추적하기

이번 소개할 논문은 자연언어처리 기법을 응용하여, 라틴어의 각 단어들이 가지는 의미가 시기에 따라 어떻게 변화했는지 추적한 재미난 논문입니다. David Bamman과 Gregory Crane의 Measuring Historical Word Sense Variation이라는 논문인데요, 이 저자분들은 페르세우스 프로젝트의 선임 연구원들입니다. 페르세우스 프로젝트는 서양의 고전 문학 텍스트들을 수집하고 전산화하여 제공하는 프로젝트라고 할 수 있는데요, 이를 통해 다량의 고전 헬라어, 라틴어 텍스트들이 수집되고 공개되었습니다. 개인적으로 고전 인문학에 전산학을 접목한 아주 적절한 프로젝트라고 생각하는데요, 여기서 공개된 텍스트 데이터를 바탕으로 제 살아있는 라틴어 사전 및 살아있는 헬라어 사전도 만들어질 수..

그냥 공부 2018. 11. 12. 16:13

상위어 자동 추출(Hypernym Detection) 기법 정리

우리가 사용하는 단어(그 중 특히 명사)는 어떤 개념을 나타내고 있고, 그 개념들 사이에는 서로 포함관계가 존재하는 경우가 많습니다. '포도'라는 개념은 '과일'이라는 개념에 포함되고, '과일'이라는 개념은 '음식'이라는 개념에 포함됩니다. 이를 수식처럼 표현하면포도 ⊂ 과일 ⊂ 음식처럼 쓸 수 있을 겁니다. 이 때 상위 개념에 포함되는 하위 단어를 하위어(Hyponym), 하위 개념을 포함하는 상위 단어를 상위어(Hypernym)이라고 부릅니다. 즉, 위와 같은 개념 간의 포함관계를 예로 들자면, 포도의 상위어는 과일이 되고, 과일의 하위어에는 포도가 들어가겠죠. 상위어, 하위어 관계를 따지는 것은 결국 그 단어가 가리키는 개념 간의 관계를 파악하는 것이고, 이는 인간이 언어로 표현하는, 세상에 대한 ..

그냥 공부 2018. 10. 10. 02:04

[Python] 디리클레 분포 추정하기

토픽 모델링 이론들을 공부하다 보니 종종 깁스 샘플링 이후에 디리클레 분포를 추정하는 방법을 사용하는걸 봤었는데, 매번 봐도 잘 이해도 못하고 계속 까먹길래 아예 까먹지 포스팅을 하나 파둡니다. 디리클레 분포(Dirichlet Distribution)은 다항 분포에 대한 분포라는 건 잘 알고 계실 겁니다. 예를 들어 토픽 모델링과 같은 상황에서, 각 주제는 단어들에 대한 다항 확률 분포이므로, 주제의 분포는 다항 분포에 대한 분포, 즉 디리클레 분포가 되죠. 디리클레 분포에서 임의의 다항 (확률) 분포를 뽑아낼 수 있고, 다항 분포에서는 n지선다에서 하나를 뽑아낼 수 있습니다. 이런 유용성 때문에 토픽 모델링에서 디리클레 분포는 널리 쓰입니다. 디리클레 분포는 하이퍼 파라미터를 하나 가집니다. 흔히 α라..

그냥 공부 2018. 9. 3. 17:59

나의 큰 O는 log x야

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

그냥 공부

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

댓글

태그

방문자

페이징

티스토리툴바