[텍스트정보처리론] 0. 텍스트 마이닝

Posted by 적분 ∫2tdt=t²+c
2016.04.17 02:55 수업노트

송민 교수님의 텍스트정보처리론 수업. 이번 학기 수업 중 가장 기대되는 수업! 사실 텍스트 처리기법과 관련해서는 정식으로 배운적은 없지만 사전 만들고, 각종 기능 추가하면서 모니터 너머로 알음알음 공부했기에, 이번에 뭔가 제대로 배워서 튼튼한 이론적 기반을 토대로 제대로된 시스템을 만들어 보고 싶다는 강한 욕망이 있었다!

검색과 발견, 정형과 비정형 데이터

검색(search)

발견(discover)

정형 데이터(structured data)

데이터 검색(Data Retrieval):

구조화된 데이터베이스에서 목표를 가지고 자료(Data Record)를 검색함. SQL

데이터 마이닝(Data Mining):

구조화된 데이터베이스에서 새로운 자료(Number, Dimensions)를 발견함.

비정형 데이터(unstructured data)

정보 검색(Information Retrieval):
구조화되지 않은 데이터(일반 텍스트)에서 목표를 가지고 자료(Document)를 검색함. 검색엔진. 

텍스트 마이닝(Text Mining):
구조화되지 않은 데이터(일반 텍스트)에서 새로운 자료(Language Feature, Concept)를 발견함.


디지털로 생산되는 데이터 중 약 90% 이상이 비정형 데이터일것으로 추정됨. 10% 미만의 정형 데이터를 처리(빅데이터 처리)해서 얻는 정보도 충분히 가치있지만, 90% 이상의 비정형 데이터에서는 훨씬 더 많은 정보를 추출해 낼수 있을것으로 기대됨.


텍스트 마이닝의 도전 과제

  • 언어의 경우 매우 다양한 단어와 어구가 존재하여 자료 자체의 Dimensions이 굉장히 높음
  • 각각의 자료가 구조적으로 동일하지 않고, 통계적으로 독립도 아님
  • 각각의 개념 사이에 미묘하고 복잡한 관계가 있음
  • 모호성과 문맥 의존성이 강함


하지만 자연언어처리와 전산언어학이 발전하고 이와 더불어 연산장치의 성능이 높아지고 가격이 낮아짐에 따라 텍스트 마이닝의 가능성이 높아지고 있다.


텍스트 분석 방법

통계적 분석: Term Frequency, Document Frequency, Term Proximity, Document Length

언어/내용 분석: Lexcial Processing, Syntactic Processing, Semantic Processing ...

저작자 표시 비영리 동일 조건 변경 허락
신고
크리에이티브 커먼즈 라이선스
Creative Commons License
이 댓글을 비밀 댓글로

티스토리 툴바