'word2vec' 태그의 글 목록

단순하지만 강력한 Smooth Inverse Frequency 문장 임베딩 기법

자연언어처리 분야에서 임베딩 기법은 자연언어를 수치의 형태로 효과적으로 표현한다는 강점 때문에 최근 널리 사용되고 있습니다. 대표적인 것이 단어 임베딩 기법인데, Word2Vec, GloVe, FastText 등이 있지요. 이들은 단어의 의미를 벡터 공간 상의 점으로 표현하는데, 그 점이 단어의 실제 의미를 반영한다는 점에서 의미가 크지요. 그러나 많은 텍스트 처리 기법들은 단어 이상의 단위를 처리할 것을 요구받습니다. 문장이나 문단, 혹은 문헌처럼 말이지요. 따라서 당연히 문장 전체나 문단 등 그보다 큰 단위에 대해 임베딩을 실시하려는 시도가 있었습니다.본 포스팅에서는 유명한 문장 임베딩 기법들과 함께, 간단하지만 강력한 문장 임베딩 기법인 SIF(Smooth Inverse Frequency)에 대해 ..

그냥 공부 2019. 4. 24. 21:18

단어 임베딩을 이용한 추출적 텍스트 요약 기법

오늘 살펴볼 논문은 추출적 텍스트 요약 기법(Extractive Text Summarization)에 단어 임베딩을 적용하는 간단한 방법을 통해 비지도 방법으로 높은 텍스트 요약 성능을 보인 기법에 대한 것입니다. 아이디어는 정말로 간단한데 성능이 강력하니 이보다 좋을 수 없지요. 간략하게 어떤 기법인지 살펴보도록 하겠습니다. Rossiello, G., Basile, P., & Semeraro, G. (2017). Centroid-based text summarization through compositionality of word embeddings. In Proceedings of the MultiLing 2017 Workshop on Summarization and Summary Evaluation..

그냥 공부 2019. 2. 8. 01:58

[기계 번역] 이중 언어 데이터에서의 단어 임베딩 (Bilingual Word Embeddings from Non-Parallel Document Data)

서론기계 번역은 (사실은 꽤 오래전부터지만) 최근 엄청나게 떠오르고 있는 Hot한 연구 분야입니다. 특히 몇년전 Google이 Google 번역에 딥러닝을 도입하고, 네이버가 파파고를 출시하면서 외국어 공부가 필요없는 세상이 다가오는 것처럼 보이기도 합니다. 기계 번역 분야는 정말 미래가 기대되는 연구 분야라고 할 수 있겠습니다.딥러닝을 통한 기계 번역 기술의 비약적인 발전에는 단어 임베딩(Word Embedding)이라는 뿌리가 있습니다. 단어 임베딩 기법에 대해서는 예전에 Gaussian LDA를 소개하면서 잠깐 언급한 적이 있습니다. 단어 임베딩이란 각각의 단어를 숫자로 표현하는데, 그 때 그 숫자들이 단어의 의미를 반영할 수 있도록 하는 것이라고 한 줄 요약할 수 있겠지요.결국 컴퓨터는 모든 데이..

그냥 공부 2018. 11. 30. 18:19

Word2Vec을 이용한 한국어 관련어 네트워크 보기

Word2Vec이 단어 간의 의미론적인 관계를 잘 잡아준다는 것은 이미 널리 알려진 사실이지요. 신기해서 작년에 실제로 실험도 돌려보았었구요 (https://bab2min.tistory.com/545), 당시에는 세종 말뭉치의 데이터만 가지고 Word2Vec을 학습했었는데, 꽤나 그럴싸한 결과가 나와서 놀랐던게 기억에 남네요. 한동안 잊고 지냈었는데, 최근 Kiwi 0.5 버전을 준비하면서 코퍼스에서 사전에 등록되지 않은 단어를 발견하는 기법에 대해서 알게 되었고, 이가 적용된 Kiwi 0.5버전을 이용해 실제로 나무위키의 수 몇 백만건의 문헌을 형태소 분석을 진행하여 약 20여만건의 단어를 추출해보았습니다. 하는 김에 이 단어들을 가지고 Word2Vec을 돌려보았는데요(gensim 라이브러리를 사용했고..

프로그래밍/NLP 2018. 9. 17. 17:28

Word2Vec을 이용한 한국어 관련어 추출과 평가

저번달에 라틴어 관련어를 추출하는데, Word2Vec 기술을 사용해봤는데요, 몇 가지 아쉬운 점들이 있었습니다. 먼저 학습과 관련된 파라메터들을 어떻게 설정하는게 좋을지, 그리고 해당 파라메터가 과연 적절한지 아닐지를 어떻게 판단할지 등에 대한 고민이 전혀 없는 상태에서 단순히 공기어 통계와 비교하는 작업만을 했기 때문이었습니다. 그래서 이를 어떻게 하면 체계화해서 제대로 평가하고 적절한 파라메터를 골라낼 수 있을까 고민을 하다가 전에 사용했던 라틴어 코퍼스보다 크기도 크고, 태깅도 잘된 21세기 세종계획 말뭉치를 이용하기로 결심했어요.절차는 다음과 같았습니다.세종계획 말뭉치에서 불필요한 단어를 골라낸다. (주로, 조사, 어미, 기호 등을 제거하여 명사/동사/형용사/관형사 정도만 남겼습니다)다양한 파라메..

그냥 공부 2017. 1. 15. 21:53

단순 공기어 통계 vs Word2Vec를 이용한 관련어 추출

저번에 라틴어 사전에 관련어를 추출하기 위해 공기어(cooccurence) 빈도를 지지고 볶는 작업을 했었습니다. (관련 포스팅: http://bab2min.tistory.com/533) 하지만 같은 문장에 자주 같이 등장한다고 해서 둘의 의미가 항상 같을 것이라고 기대할 수는 없습니다. 같이 등장하지만 크게 상관없는 단어도 있을수 있고... 단순 공기어 빈도를 가지고 통계적 처리를 한 결과는 여러모로 한계점이 있을수 밖에 없죠. 세상이 많이 발전해서 통계적 기법으로 언어를 처리하는 새로운 기술들이 등장했는데요, 대표적인게 Word2Vec이라는 겁니다. 단어들을 N차원 벡터 공간에 매핑함으로써(당연히 비슷한 단어일수록 가깝게, 다른 단어일수록 멀리 위치하도록 매핑해야겠죠) 단어간의 유사도나 관계를 쉽게 ..

그냥 공부 2016. 12. 9. 20:38

나의 큰 O는 log x야

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

word2vec

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

댓글

태그

방문자

페이징

티스토리툴바