나의 큰 O는 log x야

고정 헤더 영역

글 제목

메뉴 레이어

나의 큰 O는 log x야

메뉴 리스트

  • 홈
  • Tag
  • Guestbook
  • Admin
  • 분류 전체보기
    • 적분史
    • 프로그래밍
      • PG어
      • 테크닉
      • 3D
      • Multi precision
      • 포니게임개발
      • 스페샬
      • NLP
    • 소리
    • 언어
      • 어원 이야기
      • 라틴어
    • 수업노트
      • 한국고대경제와사회
      • 영어구조론
      • 정보검색론
      • 인간의삶과역사속의미생물
      • 기타
    • 잉여
      • 미래
      • 수학
      • 종교개혁
    • 그냥 공부
    • 가짜 정보 정정합니다.

검색 레이어

나의 큰 O는 log x야

검색 영역

컨텐츠 검색

토픽 모델링

  • [토픽 모델링] 가우시안 LDA 모델 - Word2Vec과 결합한 LDA

    2018.08.05 by ∫2tdt=t²+c

  • [토픽 모델링] LDA에 용어 가중치를 적용하기

    2018.06.26 by ∫2tdt=t²+c

  • 간편한 토픽 모델링 툴 Tomoto Gui

    2018.06.09 by ∫2tdt=t²+c

  • [토픽 모델링] Relational Topic Model

    2018.03.23 by ∫2tdt=t²+c

  • [토픽 모델링] 깁스 샘플링의 병렬화 & GPU 위에서 돌리기

    2018.02.20 by ∫2tdt=t²+c

  • [잠재 디리클레 할당 파헤치기] 2.5. 디리클레-다항분포와 마법의 폴리아 항아리

    2018.02.13 by ∫2tdt=t²+c

  • [토픽 모델링] 단어의 순서를 고려하는 모형들 - Topical N Gram

    2018.02.04 by ∫2tdt=t²+c

  • [토픽 모델링] MG-LDA를 이용해 네이버 영화 리뷰 분석해보기

    2018.01.15 by ∫2tdt=t²+c

[토픽 모델링] 가우시안 LDA 모델 - Word2Vec과 결합한 LDA

최근 단어 임베딩(Word Embedding)이 매우 뜨겁게 떠오르고 있습니다. 단어 임베딩 이전의 자연언어처리에서는 각각의 단어를 모두 독립적인 존재로 보고 번호를 붙여주는 방식으로 언어 처리를 실시했습니다. 예를 들어 {옷, 의류, 의복}이라는 단어가 있으면 옷 = 0, 의류 = 1, 의복 = 2 처럼 임의로 번호를 붙여준 것이죠. 0, 1, 2번에는 아무런 의미가 없고 단지 계산을 편리하게 하기 위해 정수를 붙인것 뿐입니다. 이를 통해 간편하게 0번이 몇번 등장하는지, 1번이 몇번 등장하는지 등을 셀 수 있고 이 빈도가 전체 문헌의 의미를 나타낸다고 가정하여 분석을 진행했었죠.하지만 단어 임베딩 기법에서는 각 단어를 임의의 차원의 실수로 대응시킵니다. 옷 = (0.1, 0.1), 의류 = (0.2,..

그냥 공부 2018. 8. 5. 21:07

[토픽 모델링] LDA에 용어 가중치를 적용하기

지금까지 다양한 토픽 모델링 기법들을 살펴보았는데요, 곰곰히 생각해보면 여태까지 다룬 모든 토픽 모델들은 다 각각의 단어를 동등하게 보았습니다. the나 topic이나 model이나 project나 어떤 단어이던간에 순서나 위치에 상관없이 문헌 속에 몇 번 등장했느냐만을 고려했기 때문이지요. bag-of-words 모형이라고 하는데 이는 결국 모든 단어를 그 등장횟수로만 판단하겠다는 간결한 가정입니다. 그런데 말입니다, 과연 모든 단어를 동등하게 보는것이 맞을까요? 간단히 생각해봐도 the와 topic이라는 단어는 동등하게 볼 수 없을것 같습니다. the는 어디서나 쓰이는 흔한 단어라서 아무런 의미가 없고반면 topic은 주제를 드러내는데 도움이 되니까요. 그래서 LDA와 같은 토픽 모델의 성능을 높이기..

그냥 공부 2018. 6. 26. 18:19

간편한 토픽 모델링 툴 Tomoto Gui

최근 1년 간 집중적으로 자연언어처리 기술 중 토픽 모델링을 공부했었는데요, 공부하면서 느꼈던것은 토픽 모델링이 유용하게 쓰일수 있는 기법임에도 사용하려면 코딩이나 스크립트를 짜야해서 진입장벽이 생각보다 높을 것 같다는 것이었습니다. 예시로 자연언어처리로 유명한 Stanford 대학에서 만든 Topic Modeling Toolbox가 있는데 확인해보시면 알겠지만 스크립트를 짜서 텍스트를 전처리하면 이를 토픽 모델에 넣어 시각화를 할수있게 해주는 툴입니다. 생각보다 간단하지는 않죠. 또한 토픽 모델링의 경우 굉장히 다양한 모델이 등장했고, 모델마다 특성이 다르기에 상황에 따라 사용해야할 모델이 다른데, 이 코드들이 다 흩어져 있다(프로그래밍 언어도 제각각입니다. c/java/python은 예사..)는 것이..

프로그래밍/NLP 2018. 6. 9. 13:26

[토픽 모델링] Relational Topic Model

어쩌다보니 토픽 모델링만 진득허니 파고 있는 블로거입니다. 오늘 살펴볼 토픽 모델은 링크(혹은 더 나아가 네트워크)를 예측해낼 수 있는 RTM(Relational Topic Model)예요. 전에 설명한 sLDA 모델이 각각의 텍스트로부터 각각의 텍스트에 속한 응답변수를 학습하는데에 사용되었다면, 이번 RTM 모델은 각각의 텍스트로부터 각각의 텍스트 쌍에 속하는 응답변수(연결 확률)를 학습하는데 사용된다는 점이 차이점입니다. 이미 다 말해버렸네요. 사실 이것만 이해하면 어려울게 전혀 없는 모형입니다. 이 포스팅은 다음 논문과 슬라이드를 바탕으로 작성되었습니다.Chang, J., & Blei, D. (2009, April). Relational topic models for document networks..

그냥 공부 2018. 3. 23. 17:31

[토픽 모델링] 깁스 샘플링의 병렬화 & GPU 위에서 돌리기

깁스 샘플링(Gibbs Sampling, 기브스 표집)을 이용한 LDA 모델 추정 과정은 예전 포스팅에서 소개한 바가 있습니다. 다시 한번 간략하게 짚어보자면, 깁스 샘플링은 복잡한 확률분포 에서 표본을 추출하기가 어려우므로 그 대신 와 같이 나머지 변수를 모두 고정한 상태에서 각각의 변수의 표본을 추출하고 이를 합쳐서 전체 확률 분포의 표본을 근사하자는 아이디어입니다. 반복 횟수(iteration)이 늘어날 수록 위 근사는 원래 확률 분포를 따라간다고 이미 알려져 있기에 마음 놓고 이렇게 사용하는 것이죠. LDA에서 단어의 주제 분포를 계산하는 경우, 모든 문헌의 단어 개수가 N개이고, 주제 개수가 K개라고 하면, 각각의 단어가 주제에 배정될 수 있는 모든 조합의 개수는 KN개가 됩니다. 어마어마하게 ..

프로그래밍/NLP 2018. 2. 20. 12:40

[잠재 디리클레 할당 파헤치기] 2.5. 디리클레-다항분포와 마법의 폴리아 항아리

앞서 LDA 토픽 모델링의 수학적 기초를 다루는 시리즈를 포스팅했었는데요 [그냥 공부] - [잠재 디리클레 할당 파헤치기] 1. 베이즈 추론[그냥 공부] - [잠재 디리클레 할당 파헤치기] 2. 디리클레 분포와 LDA[그냥 공부] - [잠재 디리클레 할당 파헤치기] 3. 깁스 샘플링으로 파라미터 추정 디리클레 분포에서 LDA로 건너뛰는 지점의 설명이 조금 부족한듯 싶어서, 공부를 좀더 진행하다가 LDA 토픽 모델링을 더욱 쉽게 설명할 수 있는 비유를 알아냈습니다. 그래서 번외편으로 추가 포스팅을 올리게 되었습니다! (글의 앞부분에는 수학적인 설명이 조금 첨부되어있습니다. 이게 이해하기 어려우신 경우 뒷부분에 폴리아 항아리가 나오는 부분부터 보시면 되겠습니다.) 디리클레 분포는 다항 분포를 일반화한 것이라..

그냥 공부 2018. 2. 13. 03:31

[토픽 모델링] 단어의 순서를 고려하는 모형들 - Topical N Gram

지금까지 연구된 수많은 토픽 모델링 기법들은 대게 단어 주머니(Bag of Words) 가설을 바탕에 두고 있습니다. 이는 문헌의 내용을 단어의 순서나 위치를 고려하지 않고, 주머니 안에 해당 단어가 들어있는지 없는지 (혹은 몇 개나 들어있는지) 만을 가지고 추론할 수 있다는 가설인데요, 당연히 우리가 사용하는 자연 언어와는 조금 맞지 않는 가설입니다. 예를 들어 A: 나는 사과는 싫고 배가 좋다. B: 나는 배는 싫고 사과가 좋다.와 같이 두 문장을 생각해봅시다. 두 문장의 의미는 정 반대이지만, 단어 주머니 가설에서는 두 문장이 같은 것으로 간주됩니다. 단어의 순서는 다르지만 단어의 출현 빈도는 동일하게 때문에 해당 가설을 바탕으로 하면 그 차이를 발견할 수가 없는 것이지요. 이렇게 BoW 가설은 그..

그냥 공부 2018. 2. 4. 01:52

[토픽 모델링] MG-LDA를 이용해 네이버 영화 리뷰 분석해보기

이전 글([토픽 모델링] MG-LDA : 전역 주제와 지역 주제를 함께 추출하기)에서 MG-LDA 모델의 개념과 이론에 대해 전반적으로 살펴보았는데요, 본 게시물에서는 깁스 샘플링을 이용하여 MG-LDA 추론과정을 구현한 것을 가지고 실제 한국어 텍스트를 분석해보았습니다. MG-LDA와 깁스 샘플링 이전 글에서 모형에 대해서는 잘 설명해두었으니, 이번 글에서는 확률 식 및 깁스 샘플링 방법에 대해서 설명하도록 하겠습니다. 복습할 겸 MG-LDA의 문헌 생성 과정을 다시 짚어보자면 * 주제별 단어 분포 뽑기 과정 디리클레 분포(βG)에서 전역 주제별 단어 분포 φG를 뽑는다 (총 KG개)디리클레 분포(βL)에서 지역 주제별 단어 분포 φL를 뽑는다 (총 KL개) * 문헌 내의 단어 생성 과정(전체 문장 수..

그냥 공부 2018. 1. 15. 11:55

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

블로그 이미지

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

댓글

태그

Direct3D 리듬게임 영어구조론 텍스트 마이닝 python 토픽 모델링 한국고대경제와사회 악보 포니게임 php pg어 라틴어 BigFloat NLP c++ 자연언어처리 kiwi 문헌정보통계 정보조직론 우리역사바로알기대회

방문자

오늘
어제
전체

페이징

이전
1 2 3
다음
나의 큰 O는 log x야
메일 bab2min@gmail.com
Skin Images are from Stinkehund.

티스토리툴바