나의 큰 O는 log x야

고정 헤더 영역

글 제목

메뉴 레이어

나의 큰 O는 log x야

메뉴 리스트

  • 홈
  • Tag
  • Guestbook
  • Admin
  • 분류 전체보기
    • 적분史
    • 프로그래밍
      • PG어
      • 테크닉
      • 3D
      • Multi precision
      • 포니게임개발
      • 스페샬
      • NLP
    • 소리
    • 언어
      • 어원 이야기
      • 라틴어
    • 수업노트
      • 한국고대경제와사회
      • 영어구조론
      • 정보검색론
      • 인간의삶과역사속의미생물
      • 기타
    • 잉여
      • 미래
      • 수학
      • 종교개혁
    • 그냥 공부
    • 가짜 정보 정정합니다.

검색 레이어

나의 큰 O는 log x야

검색 영역

컨텐츠 검색

그냥 공부

  • 어떤 언어 모델이 좋을까 - 언어 모델을 평가해보자

    2021.06.29 by ∫2tdt=t²+c

  • 어떤 언어 모델이 좋을까 - 언어 모델의 간략한 역사

    2021.06.22 by ∫2tdt=t²+c

  • [토픽 모델링] Generalized DMR 토픽 모델

    2020.06.06 by ∫2tdt=t²+c

  • [토픽 모델링] Dynamic Topic Model

    2020.05.10 by ∫2tdt=t²+c

  • [토픽 모델링] 토픽에 자동으로 이름 붙이기

    2020.03.19 by ∫2tdt=t²+c

  • 그림으로 깁스샘플링 이해하기

    2020.01.03 by ∫2tdt=t²+c

  • [기계 학습] Mean Shift 클러스터링

    2019.09.04 by ∫2tdt=t²+c

  • [토픽 모델링, tomotopy] sLDA를 이용하여 스팸 메일 분류하기

    2019.08.21 by ∫2tdt=t²+c

어떤 언어 모델이 좋을까 - 언어 모델을 평가해보자

이전 글(https://bab2min.tistory.com/666)에서는 언어 모델의 간략한 역사를 살펴봤는데요, 이번 포스팅에서는 한국어 데이터를 이용해서 이전 글에서 다뤘던 모델들을 학습해보고, 직접 평가를 수행하면서 각 모델들이 얼마나 잘하는지, 무엇을 잘하고 무엇을 못하는지 살펴보고자 합니다. 언어 모델을 어떻게 평가할까 정확도 언어 모델은 이전 단어를 바탕으로 다음 단어를 예측해주는 모델이라고 했습니다. 따라서 언어 모델의 성능을 평가하는 가장 간단한 방법은 모델이 예측한 단어들 중 확률이 제일 높은 것이 실제 단어와 얼마나 동일한지를 따져보는 것이지요. 이를 정확도(Accuracy)라고 합니다. 간단한 예로 4개의 단어로 이뤄진 문장 a, b, c, d가 있다고 할 때, 먼저 시작 문맥에서 예..

그냥 공부 2021. 6. 29. 01:45

어떤 언어 모델이 좋을까 - 언어 모델의 간략한 역사

언어 모델(Language Model)은 특정 문장(=단어의 나열)이 등장할 확률을 계산해주는 모델입니다. 문장에 대해 확률을 계산할 수 있다는 건, 단어(혹은 문장)를 적절하게 선택하거나 생성해야하는 경우 여러 후보 중에서 더 적절한(확률이 높은) 후보를 선택하는 데에 쓰일 수 있다는 뜻이지요. 이 때문에 기계번역, 음성 인식, 철자 교정, OCR 등 언어와 관련된 여러 과제에서 널리 쓰이고 있습니다(이에 대해서는 예전에 몇몇 포스팅에서 간략하게 다룬 적이 있습니다). 게다가 최근 GPT-3와 같은 강력한 언어 모델이 등장하면서 언어모델이 위와 같이 비교적 단순한 과제뿐만 아니라 대화나 긴 글을 통채로 생성하거나, 주어진 예문이나 설명을 바탕으로 새로운 문제를 해결하는 것까지도 가능하다는 것이 밝혀져서..

그냥 공부 2021. 6. 22. 01:54

[토픽 모델링] Generalized DMR 토픽 모델

Dirichlet Multinomial Regression(DMR)이라는 토픽 모델이 있습니다. 예전 포스팅에서 간단하게 다뤘던 적이 있는데요, 간단하게 정리해보자면, 단순 LDA 모델의 경우 문헌별 주제 분포만을 살펴볼 수 있는 반면, DMR은 메타데이터별 주제 분포를 추정할 수 있는 강점이 있습니다. 여기서 메타데이터는 문헌이 가지는 실제 데이터를 제외한 부가적인 변수들을 가리킨다고 생각하시면 쉽습니다. 예를 들어 저자명이나 저널명, 작성 연도 같은 데이터가 있겠습니다. 즉, DMR을 이용하면 작성자별 주제분포나 작성 연도별 주제 분포 등을 계산하는게 가능해진다는 것이지요. 단순하게 문헌별 주제분포를 추정하는것보다 훨씬 유용하게 쓰일 수 있을 것이라고 짐작이 가지요?그런데 DMR 모델에는 치명적인 약..

그냥 공부 2020. 6. 6. 16:31

[토픽 모델링] Dynamic Topic Model

LDA 토픽 모델링이 개발된 뒤 처음 적용된 분야는 학술 문헌 분석과 관련된 곳이었습니다. 수없이 쏟아지는 논문들에서 중요한 주제들을 찾아내서 분류하는 작업에 LDA가 널리 쓰였지요. LDA가 학술 문헌 분석에 성공적으로 쓰이자, 트렌드 분석에도 토픽모델링을 사용하려는 시도가 등장하기 시작했습니다. 대표적인 것이 Topic over Time과 Dynamic Topic Model인데, 본 포스팅에서는 Dynamic Topic Model에 대해서 살펴보도록 하겠습니다.Blei, D. M., & Lafferty, J. D. (2006, June). Dynamic topic models. In Proceedings of the 23rd international conference on Machine learni..

그냥 공부 2020. 5. 10. 00:37

[토픽 모델링] 토픽에 자동으로 이름 붙이기

토픽 모델링을 실시하고 나면 주제별로 단어 분포가 계산되어 나옵니다. 그리고 각 문헌들에 어떤 주제가 얼만큼씩 분포하는지도 알아낼 수 있습니다. 이 때문에 대량의 문헌이 어떤 내용을 다루고 있는지 파악하기 위해서 자주 사용되지요. 근데 문제는 각 주제가 주제 번호 #1, #2 등으로 구분될 뿐, 실제 주제가 다루는 내용을 알기 위해서는 주제별 단어 분포를 확인해야 합니다. 이러면 불편하기 때문에 사람이 직접 주제별 단어 분포를 보고 주제에 이름을 붙여주는 작업을 진행하죠.그래서 주제 개수가 너무 많으면, 주제에 일일히 이름을 붙여주기 고되기 때문에 보통 토픽 모델링의 주제 개수는 10~100 개 정도로 한정합니다. 사실 문헌 집합이 더 크면 주제 개수를 더 키워야하는데, 그러면 현실적으로 그 많은 주제들..

그냥 공부 2020. 3. 19. 21:45

그림으로 깁스샘플링 이해하기

깁스 샘플링에 대해서는 토픽 모델링 공부를 하면서 귀에 피가 나도록 들었었는데요, 사실 그 실체를 정확하게 파악하는데에는 꽤 오랜 시간이 걸렸었습니다. 막연하게만 이해하고 있던 깁스 샘플링을 정확하게 깨닫게 된 건 어떤 2장 짜리 논문에서 본 그림 덕분이었는데, 이번 포스팅에서는 그걸 공유해보고자 합니다.참고한 논문은 다음과 같습니다. Breslaw, J. A. (1994). Random sampling from a truncated multivariate normal distribution. Applied Mathematics Letters, 7(1), 1-6. 다변수 정규 분포다변수 정규 분포(Multivariate Normal Distribution)에 대해서는 상관 토픽 모델 포스팅에서 살짝 설명..

그냥 공부 2020. 1. 3. 00:13

[기계 학습] Mean Shift 클러스터링

클러스터링(clustering)은 사람의 간섭 없이 컴퓨터가 스스로 유사한 값들을 묶어서 덩어리를 찾아내는 작업을 뜻합니다. 사람이 분류 체계를 미리 만들어주어야 하는 분류(classification)과는 유사하지만 지도(supervise) 여부에서 차이가 나지요. D차원의 유클리드 공간 상의 점들 N개를 클러스러팅하는 데에 가장 사용되는 대표적인 알고리즘에는 K-means Clustering이 있습니다. 이 알고리즘은 전체 N개의 데이터를 K개의 클러스터로 빠르게 묶어낸다는 장점이 있습니다만, 클러스터의 개수 K가 사전에 결정되어야 하고, 초기 중심점(Centroid) 설정에 따라 수렴 여부가 크게 좌우된다는 한계가 있습니다. 반면, 시간이 좀 더 걸리더라도 데이터에 따라 적절한 클러스터 개수를 발견하..

그냥 공부 2019. 9. 4. 23:57

[토픽 모델링, tomotopy] sLDA를 이용하여 스팸 메일 분류하기

sLDA(supervised LDA)라는 토픽 모델링 기법에 대해서는 아주 옛날에 제 블로그 포스팅에서 짧게 소개한 적이 있습니다. LDA가 문헌 집합 내에서 주제들을 찾아서 각 문헌에는 어떤 주제가 얼만큼씩 들어있는지는 찾아내는 작업이라면, sLDA에서는 문헌에서 각 주제가 얼만큼 있는지를 찾아낸 다음, 그 주제 분포를 바탕으로 문헌의 특성(response variable)을 예측하는 작업이라고 할 수 있습니다. 통계로 비유로 들자면 LDA는 문헌들 안에 있는 내용을 잘 정리해서 보여주는 기술 통계와 같은 것이고, sLDA는 LDA로 얻은 정보를 바탕으로 새로운 사실을 예측하는 추리 통계와 같은 것입니다. 수학적으로 풀어헤쳐보면, sLDA는 결국 LDA에 회귀 모형(regression)을 덧붙인 것과 ..

그냥 공부 2019. 8. 21. 02:40

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

블로그 이미지

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

댓글

태그

python 텍스트 마이닝 라틴어 pg어 한국고대경제와사회 자연언어처리 포니게임 php c++ 우리역사바로알기대회 문헌정보통계 BigFloat Direct3D 리듬게임 kiwi 토픽 모델링 정보조직론 영어구조론 악보 NLP

방문자

오늘
어제
전체

페이징

이전
1 2 3 4 ··· 7
다음
나의 큰 O는 log x야
메일 bab2min@gmail.com
Skin Images are from Stinkehund.

티스토리툴바