나의 큰 O는 log x야

고정 헤더 영역

글 제목

메뉴 레이어

나의 큰 O는 log x야

메뉴 리스트

  • 홈
  • Tag
  • Guestbook
  • Admin
  • 분류 전체보기
    • 적분史
    • 프로그래밍
      • PG어
      • 테크닉
      • 3D
      • Multi precision
      • 포니게임개발
      • 스페샬
      • NLP
    • 소리
    • 언어
      • 어원 이야기
      • 라틴어
    • 수업노트
      • 한국고대경제와사회
      • 영어구조론
      • 정보검색론
      • 인간의삶과역사속의미생물
      • 기타
    • 잉여
      • 미래
      • 수학
      • 종교개혁
    • 그냥 공부
    • 가짜 정보 정정합니다.

검색 레이어

나의 큰 O는 log x야

검색 영역

컨텐츠 검색

텍스트마이닝

  • [토픽 모델링] LSA와 LDA의 관계 (+ LDA라는 이름의 유래)

    2017.10.20 by ∫2tdt=t²+c

  • 기존 문헌 간 유사도 계산방식의 한계와 TS-SS 공식

    2017.04.14 by ∫2tdt=t²+c

[토픽 모델링] LSA와 LDA의 관계 (+ LDA라는 이름의 유래)

Latent Dirichlet Allocation이라는 이름은 언뜻 들으면 무슨 뜻인지 이해하기가 어렵습니다. 토픽 모델링 기법 중 하나로 문헌-용어 행렬에서 문헌별 주제분포와 주제별 단어분포를 찾아주는 기술인데, 이름은 Latent Dirichlet Allocation이죠. Dirichlet는 이 기법이 디리클레 분포를 기반으로하기 때문에 붙은것이라고 유추가능하지만 Latent와 Allocation은 글쎄요? 궁금해서 이에 대해서 찾아보던 중, 사실 이 이름에는 토픽 모델링 기법의 변천사가 담겨있다는 것을 알게 되었습니다. 이 포스팅에서는 그 역사를 간략하게 소개하면서 이름의 뜻을 되짚어보도록 하겠습니다. 문헌-용어 행렬문헌 집합을 표현하는 가장 고전적이면서도 직관적인 방법은 문헌들에 어떤 용어들이 들..

그냥 공부 2017. 10. 20. 01:31

기존 문헌 간 유사도 계산방식의 한계와 TS-SS 공식

이 글은 A Heidarian, 2016, A Hybrid Geometric Approach for Measuring Similarity Level Among Documents and Document Clustering 논문의 내용과 이를 정리하고 구현한 깃헙의 코드(https://github.com/taki0112/Vector_Similarity)를 바탕으로 작성되었습니다. 문헌들 사이의 유사도를 계산하기 위해서 흔히 사용되는 방법은 문헌에 등장하는 색인어(단어)의 빈도를 파악하여 TF-IDF 등의 가중치를 반영하여 벡터화하는 것입니다. 일단 문헌이 벡터로 표현되게 되면 여러가지 수학적 기법을 통해 벡터 간 유사도를 계산할 수 있죠. 그 중 대표적으로 사용되는 것에는 코사인 유사도와 유클리드 유사도 등..

그냥 공부 2017. 4. 14. 17:46

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

블로그 이미지

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

댓글

태그

php Direct3D 리듬게임 문헌정보통계 악보 kiwi 한국고대경제와사회 NLP 텍스트 마이닝 python pg어 정보조직론 우리역사바로알기대회 라틴어 토픽 모델링 자연언어처리 포니게임 BigFloat c++ 영어구조론

방문자

오늘
어제
전체

페이징

이전
1
다음
나의 큰 O는 log x야
메일 bab2min@gmail.com
Skin Images are from Stinkehund.

티스토리툴바