나의 큰 O는 log x야

고정 헤더 영역

글 제목

메뉴 레이어

나의 큰 O는 log x야

메뉴 리스트

  • 홈
  • Tag
  • Guestbook
  • Admin
  • 분류 전체보기
    • 적분史
    • 프로그래밍
      • PG어
      • 테크닉
      • 3D
      • Multi precision
      • 포니게임개발
      • 스페샬
      • NLP
    • 소리
    • 언어
      • 어원 이야기
      • 라틴어
    • 수업노트
      • 한국고대경제와사회
      • 영어구조론
      • 정보검색론
      • 인간의삶과역사속의미생물
      • 기타
    • 잉여
      • 미래
      • 수학
      • 종교개혁
    • 그냥 공부
    • 가짜 정보 정정합니다.

검색 레이어

나의 큰 O는 log x야

검색 영역

컨텐츠 검색

분류 전체보기

  • Python용 토픽 모델링 패키지 - tomotopy 개발

    2019.05.19 by ∫2tdt=t²+c

  • 단순하지만 강력한 Smooth Inverse Frequency 문장 임베딩 기법

    2019.04.24 by ∫2tdt=t²+c

  • [c++] CRTP를 이용한 다단계 정적 상속으로 코드 최적화하기

    2019.03.07 by ∫2tdt=t²+c

  • [Python] Segmented Least Squares를 이용해 구간 나누기

    2019.02.27 by ∫2tdt=t²+c

  • Seq2seq를 이용한 텍스트 Autoencoder + 이를 이용한 클러스터링

    2019.02.16 by ∫2tdt=t²+c

  • 단어 임베딩을 이용한 추출적 텍스트 요약 기법

    2019.02.08 by ∫2tdt=t²+c

  • [c++] 빠른 log sigmoid 계산

    2019.01.02 by ∫2tdt=t²+c

  • 자동 요약 기법의 연구 동향 정리

    2018.12.28 by ∫2tdt=t²+c

Python용 토픽 모델링 패키지 - tomotopy 개발

최근 몇 년 여 간 토픽 모델링이라는 자연언어처리 기법을 접하고 이를 통해서 다양한 실험 및 논문 작업을 진행했었는데요, 연구 목적으로 편하게 자주 사용하는 Python에는 토픽 모델링을 제공하는 패키지가 gensim을 제외하고는 크게 많지 않더라구요. Java 기반 라이브러리(Mallet 등)를 종종 이용해오다가, Java로 코딩하기가 너무 귀찮아서 Python에는 왜 이런 라이브러리가 없을까 한탄도 자주 했었습니다.공부할 겸 깁스 샘플링 기반의 토픽 모델링 코드를 개인적으로 c++로 개발했던 적이 있습니다. 최근에 Python C API를 공부하며 겸사겸사 그 동안 개발해뒀던 토픽 모델링 툴을 Python 패키지화시키면 파이썬 유저들도 편하게 토픽 모델링을 할 수 있겠다 싶어서 용기를 내어 토픽 모델..

프로그래밍/NLP 2019. 5. 19. 20:32

단순하지만 강력한 Smooth Inverse Frequency 문장 임베딩 기법

자연언어처리 분야에서 임베딩 기법은 자연언어를 수치의 형태로 효과적으로 표현한다는 강점 때문에 최근 널리 사용되고 있습니다. 대표적인 것이 단어 임베딩 기법인데, Word2Vec, GloVe, FastText 등이 있지요. 이들은 단어의 의미를 벡터 공간 상의 점으로 표현하는데, 그 점이 단어의 실제 의미를 반영한다는 점에서 의미가 크지요. 그러나 많은 텍스트 처리 기법들은 단어 이상의 단위를 처리할 것을 요구받습니다. 문장이나 문단, 혹은 문헌처럼 말이지요. 따라서 당연히 문장 전체나 문단 등 그보다 큰 단위에 대해 임베딩을 실시하려는 시도가 있었습니다.본 포스팅에서는 유명한 문장 임베딩 기법들과 함께, 간단하지만 강력한 문장 임베딩 기법인 SIF(Smooth Inverse Frequency)에 대해 ..

그냥 공부 2019. 4. 24. 21:18

[c++] CRTP를 이용한 다단계 정적 상속으로 코드 최적화하기

상속은 객체지향 프로그래밍의 꽃이라고 할 수 있습니다. 상속을 통해 공통되는 코드를 통합하고, 다형성을 확보하는 등 다양한 작업이 가능하지요. C++에서는 일반적으로 클래스와 가상 함수, 상속이라는 문법적 장치를 통해 이러한 개념들이 구현됩니다. 어떤 Data에 대한 처리를 수행하는 클래스 ModelA이 있다고 생각해봅시다. struct Data { int foo, bar; }; class ModelA { std::vector myData; public: virtual void loadData() { // myData에 값들을 채워넣는다~~ } virtual void work() { // myData를 가지고 어떠한 처리를 한다~~ } void loadAndWork() { loadData(); work(..

프로그래밍/테크닉 2019. 3. 7. 20:41

[Python] Segmented Least Squares를 이용해 구간 나누기

최소제곱법(Least Square Approximation)은 데이터를 근사하는 모형을 찾는데 흔히 사용하는 방법입니다. 참값과 근사값의 오차의 제곱합이 최소가 되게한다고 해서 최소제곱법이라고 부르지요. 대표적인 사례가 선형회귀입니다. 두 변수가 가지는 관계를 좌표평면 상에 늘어놓고, 데이터의 분포를 최대한 잘 근사하는 직선을 찾는 일입니다. 그 형태가 간단하고 닫힌 해가 알려져 있어서 통계학에서는 기초 중의 기초로 널리 쓰이고 있습니다. 근데 때로는 전체 데이터의 분포가 하나의 직선으로 표현하기에 어려운 경우도 있습니다. 이 경우 선형이 아닌 좀 더 복잡한 모형을 사용하는 방법을 쓸 수도 있고, 선형 모형 여러개를 결합하여 데이터를 표현하는 방법을 쓸 수도 있습니다.오늘의 주제는 오른쪽과 같이 복잡한 ..

프로그래밍 2019. 2. 27. 18:23

Seq2seq를 이용한 텍스트 Autoencoder + 이를 이용한 클러스터링

이론오토인코더(Autoencoder)라는 개념이 있습니다. 쉽게 말하면, 어떤 상자 안에 값 x를 넣으면 그와 동일한 값인 x를 출력하도록 하는 녀석을 말합니다. 입력값을 그대로 출력해주면 되는 것인데, 이게 어떤 의미가 있냐 의아할 수 있습니다. 하지만 데이터 x가 단순히 하나의 숫자가 아니라, 여러 개의 숫자로 표현되는 복잡한 값(행렬이라던지, 이미지라던지, 음성이라던지...)이고, 상자 안의 저장 공간이 해당 입력을 전부 저장하기엔 부족하다면 이는 쉽지 않은 작업이 됩니다. 좀더 쉬운 예를 들자면, 숫자를 10개까지밖에 기억못하는 사람(오토인코더)한테 동시에 숫자 100개를 들려주고, 그대로 그걸 다시 말해보라고 하는 것이죠. 기억력에 한계가 있기 때문에 숫자 100개를 다 못 외울것 같지만, 계속..

잉여 2019. 2. 16. 02:15

단어 임베딩을 이용한 추출적 텍스트 요약 기법

오늘 살펴볼 논문은 추출적 텍스트 요약 기법(Extractive Text Summarization)에 단어 임베딩을 적용하는 간단한 방법을 통해 비지도 방법으로 높은 텍스트 요약 성능을 보인 기법에 대한 것입니다. 아이디어는 정말로 간단한데 성능이 강력하니 이보다 좋을 수 없지요. 간략하게 어떤 기법인지 살펴보도록 하겠습니다. Rossiello, G., Basile, P., & Semeraro, G. (2017). Centroid-based text summarization through compositionality of word embeddings. In Proceedings of the MultiLing 2017 Workshop on Summarization and Summary Evaluation..

그냥 공부 2019. 2. 8. 01:58

[c++] 빠른 log sigmoid 계산

sigmoid 함수는 연속이고 미분가능하면서 비선형이라는 특징 덕분에 여러 기계 학습 및 신경망에 두루 쓰이는 함수이죠. 최근에 word2vec을 확장한 모형을 공부하면서 목적함수에 log sigmoid를 잔뜩 사용하는 코드를 구현한 적이 있었는데, log sigmoid 계산 비용이 꽤나 컸기에 전반적인 속도 향상에 어려움이 있었습니다. 그래서 Look Up Table을 이용해 최적화를 실시했었는데 그 결과를 포스팅으로 공유하고자 합니다. 먼저 log sigmoid 함수는 다음과 같이 정의됩니다. 이름처럼 sigmoid 함수에 log를 취한 형태이구요, 그 그래프 모양은 다음과 같습니다. 전 범위에서 음수 값을 가지며, x > 0일는 그 값이 0에 극도로 가까워집니다. 이 함수를 계산하기 위해서는 exp..

프로그래밍 2019. 1. 2. 01:26

자동 요약 기법의 연구 동향 정리

사람들은 대체로 긴 글을 읽는 것을 좋아하지 않습니다. 모든 것이 빨리 변하고, 새로운 것이 하루가 멀다 쏟아지는 세상에서, 읽어야할 글 역시 폭발적으로 늘어나고 있기 때문에 천천히 모든 글을 읽어가며 따라가는 것이 현대인들에게는 특히 더 버거운 것 같습니다. 게시물에 세 줄 요약을 달아놓는 것이 괜히 웹 커뮤티니 상에서의 미덕이 된것이 아니겠지요. 귀찮은 일이 있으면 그걸 도구를 사용해서 간편하게 바꾸려고 하는것 또한 인간의 본성입니다. 그래서 당연히 긴 글을 자동적으로 요약해주는 시스템을 만들고자 여러 학자들이 수십년 동안 연구해왔는데요, 이번 포스팅에서는 자동 요약 기법 전반에 대해서 간단하게 살펴보고, 최근 연구 동향은 어떤지 정리해보고자 합니다.주로 다음 논문의 내용을 참조하였습니다.Gambhi..

그냥 공부 2018. 12. 28. 03:22

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

블로그 이미지

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

댓글

태그

자연언어처리 c++ 악보 NLP 영어구조론 텍스트 마이닝 리듬게임 BigFloat 포니게임 문헌정보통계 우리역사바로알기대회 한국고대경제와사회 python 라틴어 php pg어 Direct3D kiwi 토픽 모델링 정보조직론

방문자

오늘
어제
전체

페이징

이전
1 ··· 3 4 5 6 7 8 9 ··· 69
다음
나의 큰 O는 log x야
메일 bab2min@gmail.com
Skin Images are from Stinkehund.

티스토리툴바