Java로 제공되는 내용 분석/감지 도구로, MIME 타입 감지, 언어 구별, 각종 파일 포맷 파싱, 메타데이터를 지원함
2006년 Lucene 프로젝트의 하위프로젝트로 시작하여 2008년 Incubator를 마치고 2010년 아파치 Tika로 정식으로 출시
Excel, Word, Power Point, PDF, Plain Text, RTF, Outlook, ZIP, Tar, Gzip, Bzip2, XML, HTML, Images(자체적으로 내용 인식은 못하고, 메타데이터만 끄집어 낼 수 있음), jar, MP3(마찬가지로 음성 인식은 못하고, 메타데이터만 추출 가능)
Third Party 라이브러리를 연동하여 자체적으로 지원하지 않는 포맷에 대한 파싱 기능도 추가할 수 있다. 이 방법으로 hwp 파싱도 가능함
문서와 문서 내의 Metadata를 파싱하여 XML과 Metadata 형태로 돌려줌. (편의에 따라서 Plain Text로 결과를 받을 수도 있음)
대표적인 Metadata
[정보표준화론] 4. Markup Language / RDF (0) | 2016.06.08 |
---|---|
[문헌정보통계] 4. 표집과 표집분포 (0) | 2016.04.19 |
[텍스트정보처리론] 3. XML (0) | 2016.04.17 |
[텍스트정보처리론] 1. 지프의 법칙 (0) | 2016.04.17 |
[텍스트정보처리론] 0. 텍스트 마이닝 (0) | 2016.04.17 |
[문헌정보학입문] 0. 문정입 (0) | 2016.04.12 |
댓글 영역