나의 큰 O는 log x야

고정 헤더 영역

글 제목

메뉴 레이어

나의 큰 O는 log x야

메뉴 리스트

  • 홈
  • Tag
  • Guestbook
  • Admin
  • 분류 전체보기
    • 적분史
    • 프로그래밍
      • PG어
      • 테크닉
      • 3D
      • Multi precision
      • 포니게임개발
      • 스페샬
      • NLP
    • 소리
    • 언어
      • 어원 이야기
      • 라틴어
    • 수업노트
      • 한국고대경제와사회
      • 영어구조론
      • 정보검색론
      • 인간의삶과역사속의미생물
      • 기타
    • 잉여
      • 미래
      • 수학
      • 종교개혁
    • 그냥 공부
    • 가짜 정보 정정합니다.

검색 레이어

나의 큰 O는 log x야

검색 영역

컨텐츠 검색

토픽모델링

  • [Python] tomotopy로 Correlated Topic Model 수행하고 시각화하기

    2020.06.09 by ∫2tdt=t²+c

  • Python용 토픽 모델링 패키지 - tomotopy 개발

    2019.05.19 by ∫2tdt=t²+c

  • [토픽 모델링] LSA와 LDA의 관계 (+ LDA라는 이름의 유래)

    2017.10.20 by ∫2tdt=t²+c

  • [토픽 모델링] 확장된 LDA 기법들 - ATM, DMR

    2017.07.01 by ∫2tdt=t²+c

[Python] tomotopy로 Correlated Topic Model 수행하고 시각화하기

이전 포스팅에서 Correlated Topic Model을 통해서 뉴스 기사를 분석하고 주제 간의 상관관계를 뽑아낸 적이 있습니다. 최근 tomotopy에 CTM을 추가해서 누구나 쉽게 따라해볼 수 있게 된 김에 간단하게 따라해볼 수 있는 코드를 공유드립니다! 기본 코드는 tomotopy github의 예제코드(https://github.com/bab2min/tomotopy/blob/master/examples/ctm_network.py)와 동일하되, 전처리 부분만 한국어 전용으로 변경되었습니다. import tomotopy as tp # 토픽 모델링에 사용할 패키지 from kiwipiepy import Kiwi # 한국어 형태소 분석에 사용할 패키지 from pyvis.network import Ne..

프로그래밍/NLP 2020. 6. 9. 22:37

Python용 토픽 모델링 패키지 - tomotopy 개발

최근 몇 년 여 간 토픽 모델링이라는 자연언어처리 기법을 접하고 이를 통해서 다양한 실험 및 논문 작업을 진행했었는데요, 연구 목적으로 편하게 자주 사용하는 Python에는 토픽 모델링을 제공하는 패키지가 gensim을 제외하고는 크게 많지 않더라구요. Java 기반 라이브러리(Mallet 등)를 종종 이용해오다가, Java로 코딩하기가 너무 귀찮아서 Python에는 왜 이런 라이브러리가 없을까 한탄도 자주 했었습니다.공부할 겸 깁스 샘플링 기반의 토픽 모델링 코드를 개인적으로 c++로 개발했던 적이 있습니다. 최근에 Python C API를 공부하며 겸사겸사 그 동안 개발해뒀던 토픽 모델링 툴을 Python 패키지화시키면 파이썬 유저들도 편하게 토픽 모델링을 할 수 있겠다 싶어서 용기를 내어 토픽 모델..

프로그래밍/NLP 2019. 5. 19. 20:32

[토픽 모델링] LSA와 LDA의 관계 (+ LDA라는 이름의 유래)

Latent Dirichlet Allocation이라는 이름은 언뜻 들으면 무슨 뜻인지 이해하기가 어렵습니다. 토픽 모델링 기법 중 하나로 문헌-용어 행렬에서 문헌별 주제분포와 주제별 단어분포를 찾아주는 기술인데, 이름은 Latent Dirichlet Allocation이죠. Dirichlet는 이 기법이 디리클레 분포를 기반으로하기 때문에 붙은것이라고 유추가능하지만 Latent와 Allocation은 글쎄요? 궁금해서 이에 대해서 찾아보던 중, 사실 이 이름에는 토픽 모델링 기법의 변천사가 담겨있다는 것을 알게 되었습니다. 이 포스팅에서는 그 역사를 간략하게 소개하면서 이름의 뜻을 되짚어보도록 하겠습니다. 문헌-용어 행렬문헌 집합을 표현하는 가장 고전적이면서도 직관적인 방법은 문헌들에 어떤 용어들이 들..

그냥 공부 2017. 10. 20. 01:31

[토픽 모델링] 확장된 LDA 기법들 - ATM, DMR

앞선 글에서 토픽 모델링의 대표적인 기법이라고 할 수 있는 LDA(Latent Dirichlet Allocation)에 대해서 다뤄보았는데요, 이번 글에서는 LDA를 확장한 기법들 몇 개를 살펴보고자 합니다. 복습으로 다시 한 번 LDA 토픽 모델링 기법을 정리해보자면 다음과 같겠죠. K개의 주제와 V종류의 단어가 들어가 있는 M개의 문헌이 있다고 합시다. 우리는 하나의 문헌이 여러 개의 주제들의 조합으로 이루어져있고, 각각의 주제는 여러 개의 단어가 포함된다고 가정합니다. 이 문헌의 주제 분포와 주제의 단어 분포가 디리클레 분포를 따른다고 가정하고, 실제 관측되는 문헌의 단어로부터 문헌별 주제 분포와 주제별 단어분포를 추론해내는 작업, 이 것이 LDA 토픽 모델링 기법입니다. 그러나 이 LDA 기법에서..

그냥 공부 2017. 7. 1. 01:21

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

블로그 이미지

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

댓글

태그

kiwi 토픽 모델링 python 자연언어처리 정보조직론 리듬게임 한국고대경제와사회 악보 php 라틴어 Direct3D 우리역사바로알기대회 BigFloat NLP pg어 문헌정보통계 텍스트 마이닝 영어구조론 c++ 포니게임

방문자

오늘
어제
전체

페이징

이전
1
다음
나의 큰 O는 log x야
메일 bab2min@gmail.com
Skin Images are from Stinkehund.

티스토리툴바