단순하지만 강력한 Smooth Inverse Frequency 문장 임베딩 기법
자연언어처리 분야에서 임베딩 기법은 자연언어를 수치의 형태로 효과적으로 표현한다는 강점 때문에 최근 널리 사용되고 있습니다. 대표적인 것이 단어 임베딩 기법인데, Word2Vec, GloVe, FastText 등이 있지요. 이들은 단어의 의미를 벡터 공간 상의 점으로 표현하는데, 그 점이 단어의 실제 의미를 반영한다는 점에서 의미가 크지요. 그러나 많은 텍스트 처리 기법들은 단어 이상의 단위를 처리할 것을 요구받습니다. 문장이나 문단, 혹은 문헌처럼 말이지요. 따라서 당연히 문장 전체나 문단 등 그보다 큰 단위에 대해 임베딩을 실시하려는 시도가 있었습니다.본 포스팅에서는 유명한 문장 임베딩 기법들과 함께, 간단하지만 강력한 문장 임베딩 기법인 SIF(Smooth Inverse Frequency)에 대해 ..
그냥 공부
2019. 4. 24. 21:18