나의 큰 O는 log x야

고정 헤더 영역

글 제목

메뉴 레이어

나의 큰 O는 log x야

메뉴 리스트

  • 홈
  • Tag
  • Guestbook
  • Admin
  • 분류 전체보기
    • 적분史
    • 프로그래밍
      • PG어
      • 테크닉
      • 3D
      • Multi precision
      • 포니게임개발
      • 스페샬
      • NLP
    • 소리
    • 언어
      • 어원 이야기
      • 라틴어
    • 수업노트
      • 한국고대경제와사회
      • 영어구조론
      • 정보검색론
      • 인간의삶과역사속의미생물
      • 기타
    • 잉여
      • 미래
      • 수학
      • 종교개혁
    • 그냥 공부
    • 가짜 정보 정정합니다.

검색 레이어

나의 큰 O는 log x야

검색 영역

컨텐츠 검색

텍스트정보처리론

  • [텍스트정보처리론] 3. XML

    2016.04.17 by ∫2tdt=t²+c

  • [텍스트정보처리론] 2. Tika

    2016.04.17 by ∫2tdt=t²+c

  • [텍스트정보처리론] 1. 지프의 법칙

    2016.04.17 by ∫2tdt=t²+c

  • [텍스트정보처리론] 0. 텍스트 마이닝

    2016.04.17 by ∫2tdt=t²+c

[텍스트정보처리론] 3. XML

XML XML Extensible Markup Language: 사람과 기계가 모두 읽을 수 있는 확장가능한 텍스트 기반 데이터 구조 표현 방식SGML에서 유래하여 1998 W3C 표준으로 채택됨.시스템 간 정보를 교환하는데 굉장히 유용하게 사용됨HTML 역시 SGML에서 유래했기에 둘이 유사한 점이 많음 목적특징 HTML웹 페이지 기술문법 오류에 어느 정도 관대함 XML데이터 기술엄격한 문법 XML의 구성요소 Element: valueTag: valueAttribute: valueEntity: & " &apos; > < Data(value): value 합법적 XML 시작 태그과 종료 태그가 반드시 존재해야함.요소 이름은 xml로 시작할 수 없음최상위 요소는 1개여야함.부모-자식 관계가 적절해야함. 예..

수업노트 2016. 4. 17. 22:57

[텍스트정보처리론] 2. Tika

Tika Java로 제공되는 내용 분석/감지 도구로, MIME 타입 감지, 언어 구별, 각종 파일 포맷 파싱, 메타데이터를 지원함2006년 Lucene 프로젝트의 하위프로젝트로 시작하여 2008년 Incubator를 마치고 2010년 아파치 Tika로 정식으로 출시 홈페이지 http://tika.apache.org/ Excel, Word, Power Point, PDF, Plain Text, RTF, Outlook, ZIP, Tar, Gzip, Bzip2, XML, HTML, Images(자체적으로 내용 인식은 못하고, 메타데이터만 끄집어 낼 수 있음), jar, MP3(마찬가지로 음성 인식은 못하고, 메타데이터만 추출 가능)Third Party 라이브러리를 연동하여 자체적으로 지원하지 않는 포맷에 대한..

수업노트 2016. 4. 17. 22:39

[텍스트정보처리론] 1. 지프의 법칙

지프의 법칙(Zipf's Law) 텍스트의 통계적 성질에 관한 법칙 중 하나로, 코퍼스 내에 등장하는 어휘의 빈도를 조사해서 크기순으로 정렬했을때, 그 빈도수와 순위는 반비례 관계에 있다는 법칙.빈도 f는 순위r에 반비례한다. 빨간선이 순위별 빈도수를 나타낸 것. Zipf의 법칙을 따르면 고빈도 어휘가 전체의 대부분을 차지하고, 저빈도 어휘가 나머지 비중을 나눠갖는다는 것. 단어세계의 20:80의 법칙이라고 비유할 수 있다. Luhn은 Zipf의 법칙에 근거하여 색인어의 가중치를 주는 방법을 제안하였는데, 대부분을 차지하는 고빈도어휘(이를 Stop word 불용어라고 함.)와 극히 일부만을 차지하는 저빈도 어휘(Tails 꼬리)를 제외한 중간부분이 문헌 분석에서 더 중요한 역할을 한다는 것. 파란선은 해..

수업노트 2016. 4. 17. 03:31

[텍스트정보처리론] 0. 텍스트 마이닝

송민 교수님의 텍스트정보처리론 수업. 이번 학기 수업 중 가장 기대되는 수업! 사실 텍스트 처리기법과 관련해서는 정식으로 배운적은 없지만 사전 만들고, 각종 기능 추가하면서 모니터 너머로 알음알음 공부했기에, 이번에 뭔가 제대로 배워서 튼튼한 이론적 기반을 토대로 제대로된 시스템을 만들어 보고 싶다는 강한 욕망이 있었다! 검색과 발견, 정형과 비정형 데이터 검색(search)발견(discover) 정형 데이터(structured data)데이터 검색(Data Retrieval):구조화된 데이터베이스에서 목표를 가지고 자료(Data Record)를 검색함. SQL데이터 마이닝(Data Mining):구조화된 데이터베이스에서 새로운 자료(Number, Dimensions)를 발견함. 비정형 데이터(unstr..

수업노트 2016. 4. 17. 02:55

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

블로그 이미지

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

댓글

태그

python 토픽 모델링 한국고대경제와사회 문헌정보통계 Direct3D kiwi 우리역사바로알기대회 텍스트 마이닝 pg어 라틴어 악보 c++ 자연언어처리 BigFloat 포니게임 리듬게임 정보조직론 php 영어구조론 NLP

방문자

오늘
어제
전체

페이징

이전
1
다음
나의 큰 O는 log x야
메일 bab2min@gmail.com
Skin Images are from Stinkehund.

티스토리툴바