나의 큰 O는 log x야

고정 헤더 영역

글 제목

메뉴 레이어

나의 큰 O는 log x야

메뉴 리스트

  • 홈
  • Tag
  • Guestbook
  • Admin
  • 분류 전체보기
    • 적분史
    • 프로그래밍
      • PG어
      • 테크닉
      • 3D
      • Multi precision
      • 포니게임개발
      • 스페샬
      • NLP
    • 소리
    • 언어
      • 어원 이야기
      • 라틴어
    • 수업노트
      • 한국고대경제와사회
      • 영어구조론
      • 정보검색론
      • 인간의삶과역사속의미생물
      • 기타
    • 잉여
      • 미래
      • 수학
      • 종교개혁
    • 그냥 공부
    • 가짜 정보 정정합니다.

검색 레이어

나의 큰 O는 log x야

검색 영역

컨텐츠 검색

수업노트

  • [문헌정보통계] 4. 표집과 표집분포

    2016.04.19 by ∫2tdt=t²+c

  • [텍스트정보처리론] 3. XML

    2016.04.17 by ∫2tdt=t²+c

  • [텍스트정보처리론] 2. Tika

    2016.04.17 by ∫2tdt=t²+c

  • [텍스트정보처리론] 1. 지프의 법칙

    2016.04.17 by ∫2tdt=t²+c

  • [텍스트정보처리론] 0. 텍스트 마이닝

    2016.04.17 by ∫2tdt=t²+c

  • [문헌정보학입문] 0. 문정입

    2016.04.12 by ∫2tdt=t²+c

  • [정보표준화론] 0. 수업 개요

    2016.04.10 by ∫2tdt=t²+c

  • [문헌정보통계] 3. 산포도의 의미와 성질

    2016.04.07 by ∫2tdt=t²+c

[문헌정보통계] 4. 표집과 표집분포

표집(sampling) 표본을 뽑아내는 것. 확률에 근거해 모집단을 추리하기 위해 실시. 표집이 고르게 실시되어야 모집단을 합당하게 추론할 수 있음.언제나 오류가 있을 가능성을 고려해야하며, 표본의 크기를 크게하고 그 신뢰수준을 제시하여 추정의 정확도를 알려줄 수 있어야함.표본:sample, 표집:sampling 표본의 크기 전수조사가 불가능하거나, 시간과 비용을 줄이기 위해서 표본을 추출하는데, 표본의 크기(sample size)는 어느 정도이어야 할것인가?Cochran, 1963이 표본의 크기를 구하는 공식을 제시하였음. t: 신뢰인자(신뢰수준이 95%일때는 1.96, 99%일때는 2.58)d: 정확도(신뢰수준이 95%일때는 0.05, 99%일때는 0.01)p: 모집단의 특정 특성 비율. 모를 경우 ..

수업노트 2016. 4. 19. 17:27

[텍스트정보처리론] 3. XML

XML XML Extensible Markup Language: 사람과 기계가 모두 읽을 수 있는 확장가능한 텍스트 기반 데이터 구조 표현 방식SGML에서 유래하여 1998 W3C 표준으로 채택됨.시스템 간 정보를 교환하는데 굉장히 유용하게 사용됨HTML 역시 SGML에서 유래했기에 둘이 유사한 점이 많음 목적특징 HTML웹 페이지 기술문법 오류에 어느 정도 관대함 XML데이터 기술엄격한 문법 XML의 구성요소 Element: valueTag: valueAttribute: valueEntity: & " &apos; > < Data(value): value 합법적 XML 시작 태그과 종료 태그가 반드시 존재해야함.요소 이름은 xml로 시작할 수 없음최상위 요소는 1개여야함.부모-자식 관계가 적절해야함. 예..

수업노트 2016. 4. 17. 22:57

[텍스트정보처리론] 2. Tika

Tika Java로 제공되는 내용 분석/감지 도구로, MIME 타입 감지, 언어 구별, 각종 파일 포맷 파싱, 메타데이터를 지원함2006년 Lucene 프로젝트의 하위프로젝트로 시작하여 2008년 Incubator를 마치고 2010년 아파치 Tika로 정식으로 출시 홈페이지 http://tika.apache.org/ Excel, Word, Power Point, PDF, Plain Text, RTF, Outlook, ZIP, Tar, Gzip, Bzip2, XML, HTML, Images(자체적으로 내용 인식은 못하고, 메타데이터만 끄집어 낼 수 있음), jar, MP3(마찬가지로 음성 인식은 못하고, 메타데이터만 추출 가능)Third Party 라이브러리를 연동하여 자체적으로 지원하지 않는 포맷에 대한..

수업노트 2016. 4. 17. 22:39

[텍스트정보처리론] 1. 지프의 법칙

지프의 법칙(Zipf's Law) 텍스트의 통계적 성질에 관한 법칙 중 하나로, 코퍼스 내에 등장하는 어휘의 빈도를 조사해서 크기순으로 정렬했을때, 그 빈도수와 순위는 반비례 관계에 있다는 법칙.빈도 f는 순위r에 반비례한다. 빨간선이 순위별 빈도수를 나타낸 것. Zipf의 법칙을 따르면 고빈도 어휘가 전체의 대부분을 차지하고, 저빈도 어휘가 나머지 비중을 나눠갖는다는 것. 단어세계의 20:80의 법칙이라고 비유할 수 있다. Luhn은 Zipf의 법칙에 근거하여 색인어의 가중치를 주는 방법을 제안하였는데, 대부분을 차지하는 고빈도어휘(이를 Stop word 불용어라고 함.)와 극히 일부만을 차지하는 저빈도 어휘(Tails 꼬리)를 제외한 중간부분이 문헌 분석에서 더 중요한 역할을 한다는 것. 파란선은 해..

수업노트 2016. 4. 17. 03:31

[텍스트정보처리론] 0. 텍스트 마이닝

송민 교수님의 텍스트정보처리론 수업. 이번 학기 수업 중 가장 기대되는 수업! 사실 텍스트 처리기법과 관련해서는 정식으로 배운적은 없지만 사전 만들고, 각종 기능 추가하면서 모니터 너머로 알음알음 공부했기에, 이번에 뭔가 제대로 배워서 튼튼한 이론적 기반을 토대로 제대로된 시스템을 만들어 보고 싶다는 강한 욕망이 있었다! 검색과 발견, 정형과 비정형 데이터 검색(search)발견(discover) 정형 데이터(structured data)데이터 검색(Data Retrieval):구조화된 데이터베이스에서 목표를 가지고 자료(Data Record)를 검색함. SQL데이터 마이닝(Data Mining):구조화된 데이터베이스에서 새로운 자료(Number, Dimensions)를 발견함. 비정형 데이터(unstr..

수업노트 2016. 4. 17. 02:55

[문헌정보학입문] 0. 문정입

김기영 교수님의 문헌정보학입문 수업! 막학기가 다되어가는데 이제야 입문수업을 듣는다는게 조금 웃기긴하지만... 1학년들 사이에 잘 섞여서 공부해보리라고 다짐했었다! 그런데 왠걸 수업 들어가보니 의외로 고학번들이 많아서 신나는 수업. 송도까지 가는게 힘든것만 빼면 다 좋다.열심히 공부해야지. 수업 초반부에는 학문과 정보의 정의에 대해서 토론해보았다. 문헌정보학은 어찌보면 학문에 대한 학문(메타학문)인거고, 정보에 대한 학문이다보니 학문과 정보가 무엇인지는 꼭 한번은 고민하고 넘어가야할 문제라고 생각한다. 좀 더 저학년에 들었다면 훨씬 좋았을텐데 안타까울뿐.

수업노트 2016. 4. 12. 23:06

[정보표준화론] 0. 수업 개요

김수연 선생님의 정보표준화론 수업을 듣게 되었다! 수업 목표는 다음과 같다고 한다. 전통적인 도서관은 물론 디지털도서관 환경에서 정보의 관리 및 이용과 관련된 다양한 표준에 대해서 배우고문헌정보학 측면에서 정보의 표현 및 정보기술은 물론 정보의 검색과 공유 그리고 정보 매체 및 보존에 이르기까지 전반적인 정보의 관리 및 서비스에 관련된 여러 표준들에 대하여 이해할 수 있도록 한다. 추상적인 설명이라서 뭘 배우는지 잘 감이 안와서 뒤적거려보니, MARC(KORMARC)를 비롯하여 서지정보를 나타내기 위해 표준으로 사용되는 데이터 포맷메타데이터와 이를 기술하기 위해서 사용되는 XML과 같은 마크업 언어 에 대해서 배우는것이라고 함! 이 부분은 정보기술 발전에 따라 시시각각 업데이트되며 바뀌어가는 분야라 단순..

수업노트 2016. 4. 10. 21:40

[문헌정보통계] 3. 산포도의 의미와 성질

산포도(=변산도, variability)* 집중경향치만으로는 자료의 분포를 제대로 설명할 수가 없으므로, 각 요소가 어디를 중심으로 모여있는지와 더불어, 얼마나 흩어져 있는지도 기술할 필요가 있음. 이 이질성의 정도를 나타내는 값을 산포도라고 하며, 범위, 사분위편차, 표준편차, 평균편차, 분산 등이 사용됨.* 산포도가 클수록 요소들이 중심경향치로부터 멀리 떨어져 있고, 산포도가 작을수록 요소들이 중심경향치에 가깝게 모여 있음. 모든 요소가 같은 지점에 있을 경우 산포도는 0이 됨 범위(Total Range): 자료의 최대치와 최소치 사이의 간격(묶음자료가 아닌 경우) 최고요소 - 최저요소 + 1(묶음자료일 경우) 최상 급간의 정확상한계 - 최하 급간의 정확하한계* 한계: 자료의 범위 외의 다른 정보를 ..

수업노트 2016. 4. 7. 01:38

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

블로그 이미지

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

댓글

태그

악보 포니게임 자연언어처리 라틴어 python php pg어 텍스트 마이닝 정보조직론 한국고대경제와사회 문헌정보통계 Direct3D BigFloat c++ kiwi 영어구조론 토픽 모델링 우리역사바로알기대회 리듬게임 NLP

방문자

오늘
어제
전체

페이징

이전
1 2 3 4 5 6 ··· 14
다음
나의 큰 O는 log x야
메일 bab2min@gmail.com
Skin Images are from Stinkehund.

티스토리툴바