상세 컨텐츠

본문 제목

[텍스트정보처리론] 2. Tika

수업노트

by ∫2tdt=t²+c 2016. 4. 17. 22:39

본문

Tika

Java로 제공되는 내용 분석/감지 도구로, MIME 타입 감지, 언어 구별, 각종 파일 포맷 파싱, 메타데이터를 지원함

2006년 Lucene 프로젝트의 하위프로젝트로 시작하여 2008년 Incubator를 마치고 2010년 아파치 Tika로 정식으로 출시


홈페이지 http://tika.apache.org/


Excel, Word, Power Point, PDF, Plain Text, RTF, Outlook, ZIP, Tar, Gzip, Bzip2, XML, HTML, Images(자체적으로 내용 인식은 못하고, 메타데이터만 끄집어 낼 수 있음), jar, MP3(마찬가지로 음성 인식은 못하고, 메타데이터만 추출 가능)

Third Party 라이브러리를 연동하여 자체적으로 지원하지 않는 포맷에 대한 파싱 기능도 추가할 수 있다. 이 방법으로 hwp 파싱도 가능함


문서와 문서 내의 Metadata를 파싱하여 XML과 Metadata 형태로 돌려줌. (편의에 따라서 Plain Text로 결과를 받을 수도 있음)


대표적인 Metadata

  • Metadata.RESOURCE_NAME_KEY: The name of the file or resource that contains the document
  • Metadata.CONTENT_TYPE: According to the content type the document was parsed to
  • Metadata.TITLE: If the document format contains an explicit title field
  • Metadata.AUTHOR: If the document format contains an explicit author field





관련글 더보기

댓글 영역