나의 큰 O는 log x야

고정 헤더 영역

글 제목

메뉴 레이어

나의 큰 O는 log x야

메뉴 리스트

  • 홈
  • Tag
  • Guestbook
  • Admin
  • 분류 전체보기
    • 적분史
    • 프로그래밍
      • PG어
      • 테크닉
      • 3D
      • Multi precision
      • 포니게임개발
      • 스페샬
      • NLP
    • 소리
    • 언어
      • 어원 이야기
      • 라틴어
    • 수업노트
      • 한국고대경제와사회
      • 영어구조론
      • 정보검색론
      • 인간의삶과역사속의미생물
      • 기타
    • 잉여
      • 미래
      • 수학
      • 종교개혁
    • 그냥 공부
    • 가짜 정보 정정합니다.

검색 레이어

나의 큰 O는 log x야

검색 영역

컨텐츠 검색

텍스트 마이닝

  • [토픽 모델링] Relational Topic Model

    2018.03.23 by ∫2tdt=t²+c

  • [언어모델] HPYLM : 계층적 피트만-요 언어 모델

    2018.03.16 by ∫2tdt=t²+c

  • [토픽 모델링] 깁스 샘플링의 병렬화 & GPU 위에서 돌리기

    2018.02.20 by ∫2tdt=t²+c

  • [잠재 디리클레 할당 파헤치기] 2.5. 디리클레-다항분포와 마법의 폴리아 항아리

    2018.02.13 by ∫2tdt=t²+c

  • [토픽 모델링] 단어의 순서를 고려하는 모형들 - Topical N Gram

    2018.02.04 by ∫2tdt=t²+c

  • [토픽 모델링] MG-LDA를 이용해 네이버 영화 리뷰 분석해보기

    2018.01.15 by ∫2tdt=t²+c

  • [토픽 모델링] 파칭코 할당 모형과 계층적 LDA 모형

    2017.12.20 by ∫2tdt=t²+c

  • [토픽 모델링] MG-LDA : 전역 주제와 지역 주제를 함께 추출하기

    2017.12.11 by ∫2tdt=t²+c

[토픽 모델링] Relational Topic Model

어쩌다보니 토픽 모델링만 진득허니 파고 있는 블로거입니다. 오늘 살펴볼 토픽 모델은 링크(혹은 더 나아가 네트워크)를 예측해낼 수 있는 RTM(Relational Topic Model)예요. 전에 설명한 sLDA 모델이 각각의 텍스트로부터 각각의 텍스트에 속한 응답변수를 학습하는데에 사용되었다면, 이번 RTM 모델은 각각의 텍스트로부터 각각의 텍스트 쌍에 속하는 응답변수(연결 확률)를 학습하는데 사용된다는 점이 차이점입니다. 이미 다 말해버렸네요. 사실 이것만 이해하면 어려울게 전혀 없는 모형입니다. 이 포스팅은 다음 논문과 슬라이드를 바탕으로 작성되었습니다.Chang, J., & Blei, D. (2009, April). Relational topic models for document networks..

그냥 공부 2018. 3. 23. 17:31

[언어모델] HPYLM : 계층적 피트만-요 언어 모델

언어 모델(Language Model)은 특정한 문장(단어의 나열)이 등장할 확률을 계산해주는 모형입니다. 당연히 언어별로 사용되는 단어나 문법에 차이가 있을 것이므로, 특정 문장의 등장 확률 값이 언어마다 다르겠죠. 그렇기에 특정 언어의 문장 등장 확률을 모형화한다는 점에서 언어 모델이라고 이름을 붙인듯 합니다. 그런데 문장의 등장 확률을 계산하는게 무슨 쓸모가 있을까요? 다음 예시를 생각해봅시다. 길이 많이 막혀서 학교에 _____. 위와 같은 문장이 있습니다. 마지막 단어가 빠져있는데, 한국어를 할 줄 아는 사람이라면, 자연스럽게 마지막에 들어갈 단어가 '늦었다'나 이와 비슷한 단어일것이라고 예상할 수 있습니다. '배고프다'라는 단어가 들어갈 것이라고 예상하는 사람은 한국어를 잘못 배운 사람이겠죠...

그냥 공부 2018. 3. 16. 17:52

[토픽 모델링] 깁스 샘플링의 병렬화 & GPU 위에서 돌리기

깁스 샘플링(Gibbs Sampling, 기브스 표집)을 이용한 LDA 모델 추정 과정은 예전 포스팅에서 소개한 바가 있습니다. 다시 한번 간략하게 짚어보자면, 깁스 샘플링은 복잡한 확률분포 에서 표본을 추출하기가 어려우므로 그 대신 와 같이 나머지 변수를 모두 고정한 상태에서 각각의 변수의 표본을 추출하고 이를 합쳐서 전체 확률 분포의 표본을 근사하자는 아이디어입니다. 반복 횟수(iteration)이 늘어날 수록 위 근사는 원래 확률 분포를 따라간다고 이미 알려져 있기에 마음 놓고 이렇게 사용하는 것이죠. LDA에서 단어의 주제 분포를 계산하는 경우, 모든 문헌의 단어 개수가 N개이고, 주제 개수가 K개라고 하면, 각각의 단어가 주제에 배정될 수 있는 모든 조합의 개수는 KN개가 됩니다. 어마어마하게 ..

프로그래밍/NLP 2018. 2. 20. 12:40

[잠재 디리클레 할당 파헤치기] 2.5. 디리클레-다항분포와 마법의 폴리아 항아리

앞서 LDA 토픽 모델링의 수학적 기초를 다루는 시리즈를 포스팅했었는데요 [그냥 공부] - [잠재 디리클레 할당 파헤치기] 1. 베이즈 추론[그냥 공부] - [잠재 디리클레 할당 파헤치기] 2. 디리클레 분포와 LDA[그냥 공부] - [잠재 디리클레 할당 파헤치기] 3. 깁스 샘플링으로 파라미터 추정 디리클레 분포에서 LDA로 건너뛰는 지점의 설명이 조금 부족한듯 싶어서, 공부를 좀더 진행하다가 LDA 토픽 모델링을 더욱 쉽게 설명할 수 있는 비유를 알아냈습니다. 그래서 번외편으로 추가 포스팅을 올리게 되었습니다! (글의 앞부분에는 수학적인 설명이 조금 첨부되어있습니다. 이게 이해하기 어려우신 경우 뒷부분에 폴리아 항아리가 나오는 부분부터 보시면 되겠습니다.) 디리클레 분포는 다항 분포를 일반화한 것이라..

그냥 공부 2018. 2. 13. 03:31

[토픽 모델링] 단어의 순서를 고려하는 모형들 - Topical N Gram

지금까지 연구된 수많은 토픽 모델링 기법들은 대게 단어 주머니(Bag of Words) 가설을 바탕에 두고 있습니다. 이는 문헌의 내용을 단어의 순서나 위치를 고려하지 않고, 주머니 안에 해당 단어가 들어있는지 없는지 (혹은 몇 개나 들어있는지) 만을 가지고 추론할 수 있다는 가설인데요, 당연히 우리가 사용하는 자연 언어와는 조금 맞지 않는 가설입니다. 예를 들어 A: 나는 사과는 싫고 배가 좋다. B: 나는 배는 싫고 사과가 좋다.와 같이 두 문장을 생각해봅시다. 두 문장의 의미는 정 반대이지만, 단어 주머니 가설에서는 두 문장이 같은 것으로 간주됩니다. 단어의 순서는 다르지만 단어의 출현 빈도는 동일하게 때문에 해당 가설을 바탕으로 하면 그 차이를 발견할 수가 없는 것이지요. 이렇게 BoW 가설은 그..

그냥 공부 2018. 2. 4. 01:52

[토픽 모델링] MG-LDA를 이용해 네이버 영화 리뷰 분석해보기

이전 글([토픽 모델링] MG-LDA : 전역 주제와 지역 주제를 함께 추출하기)에서 MG-LDA 모델의 개념과 이론에 대해 전반적으로 살펴보았는데요, 본 게시물에서는 깁스 샘플링을 이용하여 MG-LDA 추론과정을 구현한 것을 가지고 실제 한국어 텍스트를 분석해보았습니다. MG-LDA와 깁스 샘플링 이전 글에서 모형에 대해서는 잘 설명해두었으니, 이번 글에서는 확률 식 및 깁스 샘플링 방법에 대해서 설명하도록 하겠습니다. 복습할 겸 MG-LDA의 문헌 생성 과정을 다시 짚어보자면 * 주제별 단어 분포 뽑기 과정 디리클레 분포(βG)에서 전역 주제별 단어 분포 φG를 뽑는다 (총 KG개)디리클레 분포(βL)에서 지역 주제별 단어 분포 φL를 뽑는다 (총 KL개) * 문헌 내의 단어 생성 과정(전체 문장 수..

그냥 공부 2018. 1. 15. 11:55

[토픽 모델링] 파칭코 할당 모형과 계층적 LDA 모형

오늘 살펴볼 토픽 모델은 여러 계층의 주제들을 모델링할 수 있는 모델들입니다. LDA와 같은 기본적인 토픽 모델의 경우 주제가 한 계층밖에 없어서 모든 주제가 동등한 계층에 위치할 수 밖에 없습니다. 하지만 실제 의미적으로 따져볼 때 주제들 중에는 엄연히 넓은 범위를 포괄하는 상위주제도 있고, 특수한 부분만을 가리키는 하위주제도 있게 마련이죠. 예를 들어 '과학'이라는 상위 주제 밑에는 '물리학', '화학', '생물학' 등의 하위주제가 포함될 수 있듯 말입니다.이렇게 계층적인 주제를 모델링하기 위한 모형으로 크게 파칭코 할당(Pachinko Allocation, PAM) 모형과 계층적 LDA(Hierarchical LDA, hLDA) 모형, 그리고 이 둘을 합친 계층적 파칭코 할당(Hierarchical..

그냥 공부 2017. 12. 20. 17:04

[토픽 모델링] MG-LDA : 전역 주제와 지역 주제를 함께 추출하기

앞서 수많은 토픽 모델들을 살펴보았습니다. (의도치 않게 토픽 모델링만 파게 되어버렸네요 다른 쪽도 관심이 많은데...) 문헌 집합에서 잠재적인 주제를 찾아준다는 요긴한 특성 때문에 토픽 모델링은 여러 곳에 활용할 수 있는데요, 리뷰 텍스트에서 핵심을 짚어내는 것도 그 중에 하나지요. 예를 들어 핸드폰에 관한 리뷰 텍스트를 모아서, 토픽 모델링을 실시한다면 핸드폰 리뷰에 단골로 등장하는 주제들인 디스플레이, 배터리, 발열, 그래픽 성능 등과 관련된 주제들이 나오겠죠. 그러면 특정 리뷰에 각각의 주제를 얼만큼 가지고 있는지 계량할 수 있고, 각 측면별로 리뷰를 요약한다던지, 점수를 매기는 작업 등등이 가능하게 됩니다. 하지만 이것은 토픽 모델러들의 이상이었고 현실은 조금 달랐습니다.핸드폰 리뷰를 모아서 기..

그냥 공부 2017. 12. 11. 01:51

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

블로그 이미지

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

댓글

태그

정보조직론 리듬게임 BigFloat kiwi 포니게임 텍스트 마이닝 우리역사바로알기대회 Direct3D pg어 c++ python 영어구조론 라틴어 NLP 악보 문헌정보통계 php 한국고대경제와사회 토픽 모델링 자연언어처리

방문자

오늘
어제
전체

페이징

이전
1 2 3
다음
나의 큰 O는 log x야
메일 bab2min@gmail.com
Skin Images are from Stinkehund.

티스토리툴바