[텍스트정보처리론] 2. Tika
Tika Java로 제공되는 내용 분석/감지 도구로, MIME 타입 감지, 언어 구별, 각종 파일 포맷 파싱, 메타데이터를 지원함2006년 Lucene 프로젝트의 하위프로젝트로 시작하여 2008년 Incubator를 마치고 2010년 아파치 Tika로 정식으로 출시 홈페이지 http://tika.apache.org/ Excel, Word, Power Point, PDF, Plain Text, RTF, Outlook, ZIP, Tar, Gzip, Bzip2, XML, HTML, Images(자체적으로 내용 인식은 못하고, 메타데이터만 끄집어 낼 수 있음), jar, MP3(마찬가지로 음성 인식은 못하고, 메타데이터만 추출 가능)Third Party 라이브러리를 연동하여 자체적으로 지원하지 않는 포맷에 대한..
수업노트
2016. 4. 17. 22:39