나의 큰 O는 log x야

고정 헤더 영역

글 제목

메뉴 레이어

나의 큰 O는 log x야

메뉴 리스트

  • 홈
  • Tag
  • Guestbook
  • Admin
  • 분류 전체보기
    • 적분史
    • 프로그래밍
      • PG어
      • 테크닉
      • 3D
      • Multi precision
      • 포니게임개발
      • 스페샬
      • NLP
    • 소리
    • 언어
      • 어원 이야기
      • 라틴어
    • 수업노트
      • 한국고대경제와사회
      • 영어구조론
      • 정보검색론
      • 인간의삶과역사속의미생물
      • 기타
    • 잉여
      • 미래
      • 수학
      • 종교개혁
    • 그냥 공부
    • 가짜 정보 정정합니다.

검색 레이어

나의 큰 O는 log x야

검색 영역

컨텐츠 검색

그냥 공부

  • 통계 + 의미론적 방법을 이용한 짧은 텍스트 간 유사도 산출

    2017.02.09 by ∫2tdt=t²+c

  • 코퍼스를 이용하여 단어 세부 의미 분별하기

    2017.02.07 by ∫2tdt=t²+c

  • 상호정보량(Mutual Information)

    2017.01.18 by ∫2tdt=t²+c

  • Word2Vec을 이용한 한국어 관련어 추출과 평가

    2017.01.15 by ∫2tdt=t²+c

  • 한국어 불용어 리스트 100개

    2017.01.10 by ∫2tdt=t²+c

  • 단순 공기어 통계 vs Word2Vec를 이용한 관련어 추출

    2016.12.09 by ∫2tdt=t²+c

통계 + 의미론적 방법을 이용한 짧은 텍스트 간 유사도 산출

두 텍스트 간의 유사도를 산출하는 고전적인 방법에는 텍스트 내의 단어 빈도를 가지고 벡터를 구축하여, 벡터 간 코사인 유사도를 구하는 것이 있습니다. 이 방법의 장점은 다른 어떤 언어학적 기법을 도입하지 않아도 (기껏해야 Stemming 정도만 하면 충분하죠) 단어 빈도만 세어서 꽤나 훌륭한 결과를 얻을 수 있다는 것입니다. 그런데 이런 통계적인 방법이 통하려면 해당 텍스트가 충분히 길어야한다는 조건이 필요하죠. 그렇지 않을 경우 텍스트로부터 만들어진 벡터가 희소(sparsity)하게 되어, 좋은 결과를 얻을 수 없게 됩니다. 그렇기 때문에 짧은 텍스트에 대해서는 조금 다른 방법이 필요하게 됩니다. 이 글에서는 W Song, 2007, Question Similarity Calculation for FA..

그냥 공부 2017. 2. 9. 16:07

코퍼스를 이용하여 단어 세부 의미 분별하기

단어 의미 판별(Word-sense Disambiguation)이라는 작업이 있습니다. "가다"라는 동사를 예로 들어보죠. "집에 간다"는 문장에서 가다는 움직이는 것을 의미합니다. 반면 "저 세상으로 가셨다"는 문장에서는 죽었음을 뜻합니다. 이렇듯 같은 단어라도 맥락에 따라 사용되는 의미가 다르기에 보통 사전에 보통 1,2,3...번으로 세부 의미를 나눠서 뜻풀이를 합니다. 사전 이용자들은 사전을 살펴볼때 단어의 세부 의미 1번에 가장 자주 쓰이는 의미가 들어가 있기를 기대합니다. 그렇기에 세부 의미를 판별해서 어떤 세부 의미가 가장 자주 쓰이고 주된 의미인지 판별하는 작업이 사전 편찬 작업에서 중요하다 할 수 있겠습니다. 이 글에서는 D McCarthyr, 2004, Finding Predominan..

그냥 공부 2017. 2. 7. 18:30

상호정보량(Mutual Information)

상호정보량(Mutual Information)이라는 개념이 있습니다. 두 확률변수가 서로 어떤 관계를 가지고 있는지 나타내는 정보량 중의 하나인데, 두 확률변수가 완전히 독립인 경우(사건 A가 일어나는 것이 사건 B가 일어날 확률에 전혀 영향을 주지 않고, 그 역도 마찬가지인것) 그 값은 0이 되고, 둘이 서로 밀접한 관련(사건 A가 일어날수록 B가 일어날 확률이 높아진다던지)이 있을경우 커지고, 역의 방향으로 관련이 있을 경우(사건 A가 일어날수록 B가 일어날 확률이 낮아진다던지) 값이 작아지죠. 즉 둘이 얼마나 밀접한 관련이 있는지를 계량화하여 판단할 수 있는 수치입니다. 정의만 들어도 사용할 만한 곳이 막 떠오르지 않나요?수학적으로는 다음과 같이 정의됩니다.확률변수 A, B의 상호정보량을 I(A; ..

그냥 공부 2017. 1. 18. 14:49

Word2Vec을 이용한 한국어 관련어 추출과 평가

저번달에 라틴어 관련어를 추출하는데, Word2Vec 기술을 사용해봤는데요, 몇 가지 아쉬운 점들이 있었습니다. 먼저 학습과 관련된 파라메터들을 어떻게 설정하는게 좋을지, 그리고 해당 파라메터가 과연 적절한지 아닐지를 어떻게 판단할지 등에 대한 고민이 전혀 없는 상태에서 단순히 공기어 통계와 비교하는 작업만을 했기 때문이었습니다. 그래서 이를 어떻게 하면 체계화해서 제대로 평가하고 적절한 파라메터를 골라낼 수 있을까 고민을 하다가 전에 사용했던 라틴어 코퍼스보다 크기도 크고, 태깅도 잘된 21세기 세종계획 말뭉치를 이용하기로 결심했어요.절차는 다음과 같았습니다.세종계획 말뭉치에서 불필요한 단어를 골라낸다. (주로, 조사, 어미, 기호 등을 제거하여 명사/동사/형용사/관형사 정도만 남겼습니다)다양한 파라메..

그냥 공부 2017. 1. 15. 21:53

한국어 불용어 리스트 100개

블로그 텍스트를 분석하는 과제를 하던 도중, 한국어 불용어를 제거해야할 일이 생겼어요. komoran으로 형태소 분석후에 어미나 조사는 싹 빼버렸지만, 명사/동사/형용사 등에서 불용어를 제거할 수 있는 좋은 방법이 없어서 웹을 검색했으나 원하는 리스트를 찾지 못했습니다. 그래서 그냥 가지고 태깅 한국어 코퍼스에서 고빈도어 상위 100개를 뽑아 불용어 리스트를 만들어 보았습니다.utf-8 형태에 탭으로 구분된 파일입니다. 형태 / 품사태그 / 평균빈도 순으로 들어가 있고, 품사 태그는 세종 말뭉치 태그를 기준으로 합니다.아마 주로 문어 코퍼스 비중이 높고, 구어나 인터넷의 가벼운 글들이 반영되지 않아서 블로그/댓글/SNS 불용어로 쓰기에는 약간 부적합할 수도 있다는 생각이 드는군요. 형태 품사 비율 형태 ..

그냥 공부 2017. 1. 10. 02:11

단순 공기어 통계 vs Word2Vec를 이용한 관련어 추출

저번에 라틴어 사전에 관련어를 추출하기 위해 공기어(cooccurence) 빈도를 지지고 볶는 작업을 했었습니다. (관련 포스팅: http://bab2min.tistory.com/533) 하지만 같은 문장에 자주 같이 등장한다고 해서 둘의 의미가 항상 같을 것이라고 기대할 수는 없습니다. 같이 등장하지만 크게 상관없는 단어도 있을수 있고... 단순 공기어 빈도를 가지고 통계적 처리를 한 결과는 여러모로 한계점이 있을수 밖에 없죠. 세상이 많이 발전해서 통계적 기법으로 언어를 처리하는 새로운 기술들이 등장했는데요, 대표적인게 Word2Vec이라는 겁니다. 단어들을 N차원 벡터 공간에 매핑함으로써(당연히 비슷한 단어일수록 가깝게, 다른 단어일수록 멀리 위치하도록 매핑해야겠죠) 단어간의 유사도나 관계를 쉽게 ..

그냥 공부 2016. 12. 9. 20:38

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

블로그 이미지

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

댓글

태그

python NLP c++ 악보 토픽 모델링 Direct3D 영어구조론 pg어 한국고대경제와사회 텍스트 마이닝 라틴어 문헌정보통계 자연언어처리 php 포니게임 kiwi 우리역사바로알기대회 BigFloat 정보조직론 리듬게임

방문자

오늘
어제
전체

페이징

이전
1 ··· 4 5 6 7
다음
나의 큰 O는 log x야
메일 bab2min@gmail.com
Skin Images are from Stinkehund.

티스토리툴바