[텍스트정보처리론] 0. 텍스트 마이닝

수업노트

by ∫2tdt=t²+c 2016. 4. 17. 02:55

송민 교수님의 텍스트정보처리론 수업. 이번 학기 수업 중 가장 기대되는 수업! 사실 텍스트 처리기법과 관련해서는 정식으로 배운적은 없지만 사전 만들고, 각종 기능 추가하면서 모니터 너머로 알음알음 공부했기에, 이번에 뭔가 제대로 배워서 튼튼한 이론적 기반을 토대로 제대로된 시스템을 만들어 보고 싶다는 강한 욕망이 있었다!

검색과 발견, 정형과 비정형 데이터

	검색(search)	발견(discover)
정형 데이터(structured data)	데이터 검색(Data Retrieval): 구조화된 데이터베이스에서 목표를 가지고 자료(Data Record)를 검색함. SQL	데이터 마이닝(Data Mining): 구조화된 데이터베이스에서 새로운 자료(Number, Dimensions)를 발견함.
비정형 데이터(unstructured data)	정보 검색(Information Retrieval): 구조화되지 않은 데이터(일반 텍스트)에서 목표를 가지고 자료(Document)를 검색함. 검색엔진.	텍스트 마이닝(Text Mining): 구조화되지 않은 데이터(일반 텍스트)에서 새로운 자료(Language Feature, Concept)를 발견함.

검색(search)

발견(discover)

정형 데이터(structured data)

데이터 검색(Data Retrieval):

구조화된 데이터베이스에서 목표를 가지고 자료(Data Record)를 검색함. SQL

데이터 마이닝(Data Mining):

구조화된 데이터베이스에서 새로운 자료(Number, Dimensions)를 발견함.

비정형 데이터(unstructured data)

정보 검색(Information Retrieval):
구조화되지 않은 데이터(일반 텍스트)에서 목표를 가지고 자료(Document)를 검색함. 검색엔진.

텍스트 마이닝(Text Mining):
구조화되지 않은 데이터(일반 텍스트)에서 새로운 자료(Language Feature, Concept)를 발견함.

디지털로 생산되는 데이터 중 약 90% 이상이 비정형 데이터일것으로 추정됨. 10% 미만의 정형 데이터를 처리(빅데이터 처리)해서 얻는 정보도 충분히 가치있지만, 90% 이상의 비정형 데이터에서는 훨씬 더 많은 정보를 추출해 낼수 있을것으로 기대됨.

텍스트 마이닝의 도전 과제

언어의 경우 매우 다양한 단어와 어구가 존재하여 자료 자체의 Dimensions이 굉장히 높음
각각의 자료가 구조적으로 동일하지 않고, 통계적으로 독립도 아님
각각의 개념 사이에 미묘하고 복잡한 관계가 있음
모호성과 문맥 의존성이 강함

하지만 자연언어처리와 전산언어학이 발전하고 이와 더불어 연산장치의 성능이 높아지고 가격이 낮아짐에 따라 텍스트 마이닝의 가능성이 높아지고 있다.

텍스트 분석 방법

통계적 분석: Term Frequency, Document Frequency, Term Proximity, Document Length

언어/내용 분석: Lexcial Processing, Syntactic Processing, Semantic Processing ...

저작자표시 비영리 동일조건

'수업노트' 카테고리의 다른 글

[텍스트정보처리론] 3. XML (0)	2016.04.17
[텍스트정보처리론] 2. Tika (0)	2016.04.17
[텍스트정보처리론] 1. 지프의 법칙 (0)	2016.04.17
[문헌정보학입문] 0. 문정입 (0)	2016.04.12
[정보표준화론] 0. 수업 개요 (0)	2016.04.10
[문헌정보통계] 3. 산포도의 의미와 성질 (0)	2016.04.07

글쓴이 ∫2tdt=t²+c

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

방문자

오늘

어제

전체

나의 큰 O는 log x야

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

검색과 발견, 정형과 비정형 데이터

텍스트 마이닝의 도전 과제

텍스트 분석 방법

'수업노트' 카테고리의 다른 글

관련글 더보기

댓글 영역

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

댓글

태그

방문자

티스토리툴바