나의 큰 O는 log x야

고정 헤더 영역

글 제목

메뉴 레이어

나의 큰 O는 log x야

메뉴 리스트

  • 홈
  • Tag
  • Guestbook
  • Admin
  • 분류 전체보기
    • 적분史
    • 프로그래밍
      • PG어
      • 테크닉
      • 3D
      • 포니게임개발
      • Multi precision
      • 스페샬
      • NLP
    • 소리
    • 언어
      • 어원 이야기
      • 라틴어
    • 수업노트
      • 한국고대경제와사회
      • 영어구조론
      • 정보검색론
      • 인간의삶과역사속의미생물
      • 기타
    • 잉여
      • 미래
      • 수학
      • 종교개혁
    • 가짜 정보 정정합니다.
    • 그냥 공부

검색 레이어

나의 큰 O는 log x야

검색 영역

컨텐츠 검색

텍스트 마이닝

  • [토픽 모델링] TOT 모델 (Topic Over Time)

    2017.12.01 by ∫2tdt=t²+c

  • [토픽 모델링] Joint Sentiment Topic Model(JST)

    2017.11.21 by ∫2tdt=t²+c

  • [토픽 모델링] 토픽 모델링 결과 평가법 : Perplexity와 Topic Coherence

    2017.11.14 by ∫2tdt=t²+c

  • [토픽모델링] sLDA와 L-LDA

    2017.10.19 by ∫2tdt=t²+c

  • [토픽 모델링] DMR의 하이퍼 파라미터 추정

    2017.10.03 by ∫2tdt=t²+c

  • [토픽 모델링] hLDA(Hierarchical LDA) 실험

    2017.07.23 by ∫2tdt=t²+c

  • [토픽 모델링] HDP와 토픽 모델링

    2017.07.09 by ∫2tdt=t²+c

  • [토픽 모델링] 확장된 LDA 기법들 - ATM, DMR

    2017.07.01 by ∫2tdt=t²+c

[토픽 모델링] TOT 모델 (Topic Over Time)

시간 축에 따라 문헌 집합 내에 등장하는 주제들이 어떻게 바뀌는지를 살피는 것은 많은 사람들이 관심을 보이는 분야입니다. 이를 위해 기존의 토픽 모델링에 시간 요소를 첨가하여 모델을 확장하려는 시도가 여럿이 있었습니다. 앞서 포스팅에서 정리된 것들을 되짚어보면, 1) DMR 토픽 모델에서는 범주형 메타데이터에 따른 주제 차이를 분석할 수 있으므로, 시간 정보를 이산화하여 범주형 메타데이터로 넣어 분석을 실시할수 있습니다. 2) 혹은 sLDA를 활용해 응답 변수로 그 문헌의 작성 시간을 주어, 주제 분포에 적당한 시간 값을 학습하는 방법도 있겠습니다. 위 방법들은 여러 방향으로 사용가능한 모델에 시간을 끼워넣어 기존의 모델을 재활용한 것입니다만, 이번 포스팅에서 소개할 Topic Over Time 모델은 ..

그냥 공부 2017. 12. 1. 16:57

[토픽 모델링] Joint Sentiment Topic Model(JST)

문헌 집합에서 유사한 단어들을 자동으로 묶어준다는 개념 덕분에 토픽 모델링을 감성분석에 이용하려는 시도는 줄곧 있어왔습니다. 결국 감성이라는 것이 어떻게 보면, 문헌 집합에서 "긍정" 주제, "부정" 주제, "중립" 주제에 대해서 찾아내고 그 비율을 계산하는 문제라고 볼 수도 있기 때문이죠. 이를 위해서 한편으로는 지도학습 기반인 sLDA를 이용하여 문헌과 그 문헌의 감성 점수를 학습하여, 새로운 문헌의 감성 점수를 예측하는 것처럼 기존의 주제를 분석하는 LDA의 측면을 활용하는 연구들이 있고, 다른 한 편으로는 토픽 모델링이 주제 측면뿐만이 아니라 감성 측면까지 다루도록 토픽 모델링을 확장하는 연구들도 있었습니다. 후자 속하는 모형에는 TSM(Topic Sentiment Mixture)와 JST(Joi..

그냥 공부 2017. 11. 21. 02:27

[토픽 모델링] 토픽 모델링 결과 평가법 : Perplexity와 Topic Coherence

토픽 모델링은 문헌들의 집합에서 용어들이 동시에 출현하는 것을 바탕으로 같은 의미 부류에 속하는 용어들을 주제로 묶어줍니다. 이 과정은 수작업 필요 없이 이뤄지기에 방대한 문헌을 대상도 문제없이 처리할 수 있습니다. 그런데 흔히 비지도 학습으로 수행되는 과정이 그렇듯, 이렇게 자동으로 처리된 결과가 과연 사람이 바라는 결과와 얼마나 일치할지는 모르는 것입니다. 그리고 이것이 비지도 학습인 토픽 모델링 기법이 가지는 가장 중요한 한계 중 하나구요. 따라서 토픽 모델링 결과가 잘 나왔는지, 그 성능을 평가하는 작업이 중요하게 떠오릅니다. 클러스터링 기법를 평가하는 방법은 크게 내재적인 것(Intrinsic)과 외재적인 것(Extrinsic)으로 나뉘어지는데요, 내재적 평가는 해당 기법의 결과 자체가 실제로 ..

그냥 공부 2017. 11. 14. 21:27

[토픽모델링] sLDA와 L-LDA

이번에 살펴볼 토픽 모델은 지도학습 버전의 LDA입니다. 기존의 LDA는 토픽을 비지도 방법으로 형성합니다. 즉 사람이 라벨을 붙여주지 않아도 알아서 적당히 유사한 것끼리 묶어서 주제로 묶어주는 것이죠. 당연히 비지도학습이 편하게 좋아보이겠지만, 컴퓨터가 자동으로 분류한 주제가 사람이 생각하는 주제와 일치하지 않을 수 있다는 커다란 난점이 있습니다. 그래서 라벨이 붙은 데이터가 있을때는 지도학습을 사용하는게 정확도를 높일 수 있는 방법인데요, LDA에도 이러한 지도학습용 아종이 있습니다. 대표적으로 sLDA, L-LDA, discLDA, medLDA 등이 있는데, 이들은 서로 성격이 꽤나 다릅니다. 이번 포스팅에서는 L-LDA와 sLDA에 대해서 살펴보도록 하겠습니다. Labeled LDA(L-LDA)R..

그냥 공부 2017. 10. 19. 03:20

[토픽 모델링] DMR의 하이퍼 파라미터 추정

앞서 여러 글에서 밝혔듯이 LDA(Latent Dirichlet Allocation, 잠재 디리클레 할당)은 베이즈 추론을 아주아주 잘 확장해서 특정한 단어들이 한 문헌에 등장할때 문헌 집합 내의 각 단어들이 어떤 주제에 속했는지를 계산하는 생성 모형을 제공해줍니다. (이에 대한 자세한 설명은 [잠재 디리클레 할당 파헤치기] 2. 디리클레 분포와 LDA 게시물을 참조해주세요!) LDA에서는 모든 문헌을 동등하게 취급했는데요, 각각 문헌의 특성을 반영하지 못한다는 한계를 극복하기 위해 2012년 D Mimno는 DMR(Dirichlet Multinomial Regression) 토픽 모델링을 제안했습니다. DMR 토픽 모델링에 대한 개략적인 설명은 [토픽 모델링] 확장된 LDA 기법들 - ATM, DMR ..

그냥 공부 2017. 10. 3. 13:29

[토픽 모델링] hLDA(Hierarchical LDA) 실험

요즘 계속 토픽 모델링 쪽으로 공부를 해보고 있는데요, 앞서 다뤘던 LDA, DMR, HDP-LDA 같은 모델은 모두 각각의 주제가 독립적이라 가정하고, 단일 수준에 모든 주제들을 배치했었습니다. 이번에 살펴보는 hLDA(Hierarchical LDA)는 주제를 계층적으로 찾아서, 최상위 주제 아래 하위 주제 여러 개를 배치할 수 있게 해줍니다. 배경이 되는 수학 이론이 생각보다 까다로워서 아직 완벽하게 이해는 하지 못했구요, 샘플 코드를 가지고 요리조리 실험을 해본 결과를 간단하게 살펴보는 시간을 가지려고 합니다. 주제는 서로 독립이 아니다LDA와 같은 토픽 모델링은 문헌 집합 내의 주제를 발견하는데에 큰 도움을 주지만, 아쉽게도 어떤 주제끼리 서로 연관이 있는지를 밝혀주지는 못합니다. 예를 들어 정치..

그냥 공부 2017. 7. 23. 02:25

[토픽 모델링] HDP와 토픽 모델링

앞서서 LDA 토픽 모델링 기법에 대해서 설명했었는데요, LDA 기법은 모수 통계라는 특성 상 학습에 앞서 원 데이터가 가지는 주제의 수 K를 설정해 주어야 합니다. 이 K값에 따라 LDA 토픽 모델링의 결과가 크게 달라지기 때문에 적절한 K값 선정은 정말 중요한 일입니다. 하지만 해당 데이터에 얼만큼의 주제가 포함되어 있는지를 사전에 알기는 정말 어렵죠. 사람이 일일히 문헌을 뒤져가면서 K을 확인할 수도 없는 노릇이구요. 따라서 다양한 K값에 대해서 분석을 돌리고 perplexity 값을 기준으로(또는 해석이 합리적인 정도를 기준으로) 적절한 K값을 선정하는 방식으로 K값을 찾게 됩니다. 이것이 LDA의 주요한 약점 중 하나입니다. 만약 데이터에 따라 적절한 주제 개수를 찾아주도록 LDA 기법을 개선할..

그냥 공부 2017. 7. 9. 02:29

[토픽 모델링] 확장된 LDA 기법들 - ATM, DMR

앞선 글에서 토픽 모델링의 대표적인 기법이라고 할 수 있는 LDA(Latent Dirichlet Allocation)에 대해서 다뤄보았는데요, 이번 글에서는 LDA를 확장한 기법들 몇 개를 살펴보고자 합니다. 복습으로 다시 한 번 LDA 토픽 모델링 기법을 정리해보자면 다음과 같겠죠. K개의 주제와 V종류의 단어가 들어가 있는 M개의 문헌이 있다고 합시다. 우리는 하나의 문헌이 여러 개의 주제들의 조합으로 이루어져있고, 각각의 주제는 여러 개의 단어가 포함된다고 가정합니다. 이 문헌의 주제 분포와 주제의 단어 분포가 디리클레 분포를 따른다고 가정하고, 실제 관측되는 문헌의 단어로부터 문헌별 주제 분포와 주제별 단어분포를 추론해내는 작업, 이 것이 LDA 토픽 모델링 기법입니다. 그러나 이 LDA 기법에서..

그냥 공부 2017. 7. 1. 01:21

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

블로그 이미지

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

댓글

태그

텍스트 마이닝 우리역사바로알기대회 리듬게임 php c++ 정보조직론 BigFloat 영어구조론 토픽 모델링 라틴어 문헌정보통계 한국고대경제와사회 포니게임 Direct3D 정보검색론 python pg어 악보 자연언어처리 NLP

방문자

오늘
어제
전체

페이징

이전
1 2 3
다음
나의 큰 O는 log x야
메일 bab2min@gmail.com
Skin Images are from Stinkehund.

티스토리툴바