나의 큰 O는 log x야

고정 헤더 영역

글 제목

메뉴 레이어

나의 큰 O는 log x야

메뉴 리스트

  • 홈
  • Tag
  • Guestbook
  • Admin
  • 분류 전체보기
    • 적분史
    • 프로그래밍
      • PG어
      • 테크닉
      • 3D
      • Multi precision
      • 포니게임개발
      • 스페샬
      • NLP
    • 소리
    • 언어
      • 어원 이야기
      • 라틴어
    • 수업노트
      • 한국고대경제와사회
      • 영어구조론
      • 정보검색론
      • 인간의삶과역사속의미생물
      • 기타
    • 잉여
      • 미래
      • 수학
      • 종교개혁
    • 그냥 공부
    • 가짜 정보 정정합니다.

검색 레이어

나의 큰 O는 log x야

검색 영역

컨텐츠 검색

자연언어처리

  • 단어 의미 중의성 해소(Word Sense Disambiguation) 기술들

    2017.07.04 by ∫2tdt=t²+c

  • 다변수 정규화 상호정보량과 연어 추출

    2017.06.17 by ∫2tdt=t²+c

  • Word2Vec을 이용한 한국어 관련어 추출과 평가

    2017.01.15 by ∫2tdt=t²+c

  • 단순 공기어 통계 vs Word2Vec를 이용한 관련어 추출

    2016.12.09 by ∫2tdt=t²+c

단어 의미 중의성 해소(Word Sense Disambiguation) 기술들

언어에는 다른 단어이지만 형태가 같은 동철이의어(또는 소리가 같지만 다른 단어인 동음이의어)도 많습니다. 그리고 같은 단어라 할지라도 맥락에 따라 쓰이는 의미가 다릅니다. 따라서 해당 글자가 여러 동철이의어 중 어떤 단어를 가리키는지, 더 나아가 각 단어에 있는 여러 가지 세부 의미(의미 갈래) 중 해당 맥락에서 사용한 세부 의미가 어떤 것인지 판별하는 것은 굉장히 중요한 작업이지요. 이를 단어 의미 판별(Word Sense Disambiguation, =단의 의미 중의성 해소, 갈래뜻 판별)이라고 부릅니다. 단어 의미 판별은 기계 번역이나 정보 검색, 정보 추출과 같은 자연언어처리 분야에 큰 도움이 될 수 있습니다. 본 포스팅에서는 Pal, A. R., & Saha, D. (2015). Word sen..

그냥 공부 2017. 7. 4. 16:40

다변수 정규화 상호정보량과 연어 추출

예전 포스팅에서 상호정보량과 점별 상호정보량에 대해 정리해보았었는데요, 두 사건이 함께 발생할 정도를 판단하는데 유용하게 사용됩니다. NLP에서는 연어(Collocation, 연속된 2개 이상의 단어가 한 덩어리로 쓰이는 것) 추출에서 유용하게 사용하지요. 다만 점별 상호정보량은 그 값이 (-∞, ∞) 범위에 속하고, 서로 정보량이 다른 사건을 비교할때 그 값의 스케일이 다르기 때문에 제대로된 비교가 어렵다는 점이 있습니다. 따라서 범위를 [-1, 1]로 일정하게 정규화할 필요가 있습니다. 이를 정규화 점별 상호정보량(Normalized Pointwise Mutual Information, NPMI)라고 부릅니다.또한 일반적으로 상호정보량은 2개의 사건에 대해서만 정의되기에, 3개 이상의 사건이 함께 발..

그냥 공부 2017. 6. 17. 03:15

Word2Vec을 이용한 한국어 관련어 추출과 평가

저번달에 라틴어 관련어를 추출하는데, Word2Vec 기술을 사용해봤는데요, 몇 가지 아쉬운 점들이 있었습니다. 먼저 학습과 관련된 파라메터들을 어떻게 설정하는게 좋을지, 그리고 해당 파라메터가 과연 적절한지 아닐지를 어떻게 판단할지 등에 대한 고민이 전혀 없는 상태에서 단순히 공기어 통계와 비교하는 작업만을 했기 때문이었습니다. 그래서 이를 어떻게 하면 체계화해서 제대로 평가하고 적절한 파라메터를 골라낼 수 있을까 고민을 하다가 전에 사용했던 라틴어 코퍼스보다 크기도 크고, 태깅도 잘된 21세기 세종계획 말뭉치를 이용하기로 결심했어요.절차는 다음과 같았습니다.세종계획 말뭉치에서 불필요한 단어를 골라낸다. (주로, 조사, 어미, 기호 등을 제거하여 명사/동사/형용사/관형사 정도만 남겼습니다)다양한 파라메..

그냥 공부 2017. 1. 15. 21:53

단순 공기어 통계 vs Word2Vec를 이용한 관련어 추출

저번에 라틴어 사전에 관련어를 추출하기 위해 공기어(cooccurence) 빈도를 지지고 볶는 작업을 했었습니다. (관련 포스팅: http://bab2min.tistory.com/533) 하지만 같은 문장에 자주 같이 등장한다고 해서 둘의 의미가 항상 같을 것이라고 기대할 수는 없습니다. 같이 등장하지만 크게 상관없는 단어도 있을수 있고... 단순 공기어 빈도를 가지고 통계적 처리를 한 결과는 여러모로 한계점이 있을수 밖에 없죠. 세상이 많이 발전해서 통계적 기법으로 언어를 처리하는 새로운 기술들이 등장했는데요, 대표적인게 Word2Vec이라는 겁니다. 단어들을 N차원 벡터 공간에 매핑함으로써(당연히 비슷한 단어일수록 가깝게, 다른 단어일수록 멀리 위치하도록 매핑해야겠죠) 단어간의 유사도나 관계를 쉽게 ..

그냥 공부 2016. 12. 9. 20:38

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

블로그 이미지

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

댓글

태그

우리역사바로알기대회 토픽 모델링 NLP python 정보조직론 영어구조론 pg어 c++ 악보 라틴어 텍스트 마이닝 리듬게임 포니게임 BigFloat 자연언어처리 php Direct3D 문헌정보통계 한국고대경제와사회 kiwi

방문자

오늘
어제
전체

페이징

이전
1 ··· 3 4 5 6
다음
나의 큰 O는 log x야
메일 bab2min@gmail.com
Skin Images are from Stinkehund.

티스토리툴바