송민 교수님의 텍스트정보처리론 수업. 이번 학기 수업 중 가장 기대되는 수업! 사실 텍스트 처리기법과 관련해서는 정식으로 배운적은 없지만 사전 만들고, 각종 기능 추가하면서 모니터 너머로 알음알음 공부했기에, 이번에 뭔가 제대로 배워서 튼튼한 이론적 기반을 토대로 제대로된 시스템을 만들어 보고 싶다는 강한 욕망이 있었다!
검색(search) | 발견(discover) | |
---|---|---|
정형 데이터(structured data) | 데이터 검색(Data Retrieval): 구조화된 데이터베이스에서 목표를 가지고 자료(Data Record)를 검색함. SQL | 데이터 마이닝(Data Mining): 구조화된 데이터베이스에서 새로운 자료(Number, Dimensions)를 발견함. |
비정형 데이터(unstructured data) | 정보 검색(Information Retrieval): | 텍스트 마이닝(Text Mining): |
디지털로 생산되는 데이터 중 약 90% 이상이 비정형 데이터일것으로 추정됨. 10% 미만의 정형 데이터를 처리(빅데이터 처리)해서 얻는 정보도 충분히 가치있지만, 90% 이상의 비정형 데이터에서는 훨씬 더 많은 정보를 추출해 낼수 있을것으로 기대됨.
하지만 자연언어처리와 전산언어학이 발전하고 이와 더불어 연산장치의 성능이 높아지고 가격이 낮아짐에 따라 텍스트 마이닝의 가능성이 높아지고 있다.
통계적 분석: Term Frequency, Document Frequency, Term Proximity, Document Length
언어/내용 분석: Lexcial Processing, Syntactic Processing, Semantic Processing ...
[텍스트정보처리론] 3. XML (0) | 2016.04.17 |
---|---|
[텍스트정보처리론] 2. Tika (0) | 2016.04.17 |
[텍스트정보처리론] 1. 지프의 법칙 (0) | 2016.04.17 |
[문헌정보학입문] 0. 문정입 (0) | 2016.04.12 |
[정보표준화론] 0. 수업 개요 (0) | 2016.04.10 |
[문헌정보통계] 3. 산포도의 의미와 성질 (0) | 2016.04.07 |
댓글 영역