나의 큰 O는 log x야

고정 헤더 영역

글 제목

메뉴 레이어

나의 큰 O는 log x야

메뉴 리스트

  • 홈
  • Tag
  • Guestbook
  • Admin
  • 분류 전체보기
    • 적분史
    • 프로그래밍
      • PG어
      • 테크닉
      • 3D
      • Multi precision
      • 포니게임개발
      • 스페샬
      • NLP
    • 소리
    • 언어
      • 어원 이야기
      • 라틴어
    • 수업노트
      • 한국고대경제와사회
      • 영어구조론
      • 정보검색론
      • 인간의삶과역사속의미생물
      • 기타
    • 잉여
      • 미래
      • 수학
      • 종교개혁
    • 그냥 공부
    • 가짜 정보 정정합니다.

검색 레이어

나의 큰 O는 log x야

검색 영역

컨텐츠 검색

정보검색론

  • 정보검색론: 검색 성능 향상 전략

    2012.12.17 by ∫2tdt=t²+c

  • 정보검색론: 정보검색 모형2

    2012.12.17 by ∫2tdt=t²+c

  • 정보검색론: 정보검색 모형1

    2012.12.17 by ∫2tdt=t²+c

  • 정보검색론 5. 문헌 클러스터링 (2)

    2012.10.22 by ∫2tdt=t²+c

  • 정보검색론 5. 문헌 클러스터링 (1)

    2012.10.22 by ∫2tdt=t²+c

  • 정보검색론 3. 텍스트의 자동색인 (2)

    2012.10.22 by ∫2tdt=t²+c

  • 정보검색론 3. 텍스트의 자동색인 (1)

    2012.10.21 by ∫2tdt=t²+c

  • 정보검색론 2. 색인 및 시소러스 (2)

    2012.10.21 by ∫2tdt=t²+c

정보검색론: 검색 성능 향상 전략

검색 성능을 향상시키기 위한 전략들 * 질의 작성법: 용어절단, 인접검색, 제한검색 * 질의 확장/수정: 전역적, 지역적 * 검색결과 결합: 컬렉션 결합, 데이터 결합 * 단락 검색 용어절단: 용어의 일부분을 생략하고 나머지 부분을 이용하여 검색을 수행하는 것 *무제한절단: 제한되는 글자 수가 자유로움. wildcard의 *와 유사 *제한절단: 특정한 글자수로만 제한. wildcard의 ?와 유사 *좌측절단 *우측절단 *내부절단 인접검색: 검색어들이 인접하여 출현한 경우를 검색하기 위한것. Dialog의 예 * solar(W)energy: solar energy가 연속해서 나타난 경우를 검색 * solar(3W)energy: solar (\w){0, 4} energy * air(N)pollu?: (air..

수업노트/정보검색론 2012. 12. 17. 22:56

정보검색론: 정보검색 모형2

확률검색- 각 문헌은 주어진 질의에 적합하거나 부적합하다- 한 문헌에 대한 적합성 판정은 다른 문헌과는 독립적이다위 가정을 바탕으로 하는 확률검색 모형은 문헌이 적합할 확률과 부적합학 확률을 이용하여 문헌의 적합성 순위를 결정해낸다. X는 임의의 문헌, W를 적합한 경우, W-bar를 부적합한 경우라고 할때, 부적합할 확률보다 적합할 확률이 높을 경우가 적합문헌이라고 할 수 있다. 일반적으로 P(W|X)는 계산하기 어려우므로, 베이즈의 정리 P(A|B) = P(B|A) P(A) / P(B)를 이용하여 다음과 같이 식을 변형한다. 조금더 간략하게 정리하면 어차피 오른쪽 항은 X가 포함되어있지 않은 상수이므로, 사전에 계산될 수 있는 값이고, 신경써야 할 값은 좌항이 된다. 계산의 편의를 위해 좌항에 로그를..

수업노트/정보검색론 2012. 12. 17. 20:22

정보검색론: 정보검색 모형1

검색 모형의 종류 *불리언 검색 모형 *벡터공간 검색 모형 *확률 검색 모형 *퍼지집합 검색 모형 *확장 불리언 검색 모형 ad hoc 검색과 라우팅/필터링 *TREC-4 이전 - ad hoc 검색 : 정적인 정보원을 대상으로 동적인 질의를 처리 - 라우팅 *TREC-7 이후 - ad hoc 검색 - 필터링 -- 적응적 필터링: 적합성 피드백 시스템이 도입된 필터링 -- 배치 필터링: 대량의 학습문헌(적합문헌+부적합문헌)으로 프로파일을 구축하여 필터링 시행 -- 라우팅: 순위화하여 문헌을 출력함 불리언 검색: 불 대수를 이용하여 질의를 만족시키는 문헌을 검색하는 기법 1.각 검색어를 색인어로 가지는 문헌집합들을 생성함. 2.생성된 집합을 AND, OR, NOT 논리관계에 맞추어 교집합, 합집합, 차집합 ..

수업노트/정보검색론 2012. 12. 17. 18:49

정보검색론 5. 문헌 클러스터링 (2)

5.4. 클러스터링 기법 계층적 클러스터링 기법 * 응집적 알고리즘 : N개의 클러스터에서 출발해 N-1번의 결합과정을 거쳐서 한 덩어리로 뭉쳐짐. 주로 사용됨. * 분열적 알고리즘 : 1개의 클러스터에서 출발해 N-1번의 분열과정을 거쳐서 N개의 클러스터로 나눠짐. 클러스터간의 유사도를 측정하는 방법에 따라 다음과 같이 구분할 수 있다. * 단일연결 : 두 클러스터 간의 유사도가 가장 가까운 구성원 사이의 거리를 유사도로 측정. * 완전연결 : 두 클러스터 간의 유사도가 가장 먼 구성원 사이의 거리를 유사도로 측정. * 집단평균 : 모든 구성원 사이의 유사도를 평균내서 이를 유사도로 측정. * 워드기법 : 오류제곱의 합이 최소로 증가하는 결합을 행함. 5.4.1.1. 단일연결 기법 문헌 A, B, C,..

수업노트/정보검색론 2012. 10. 22. 18:11

정보검색론 5. 문헌 클러스터링 (1)

5.1. 자동분류 개요 자동분류란 분류 알고리즘에 의해 대상물이 유사한 패턴을 갖는 것 끼리 모아 집단화하는 작업을 말한다. * 문헌 클러스터링(Document Clustering): 사전 분류체계없이 문헌간의 유사성을 따라 분류함. * 텍스트 범주화(Text Categorization): 기계학습 방법에 의해 각 문헌을 사전 분류체계의 적절한 범주에 배정함. * 중복적 분류: 한 문헌이 여러 클러스터에 포함될 수 있음 * 배타적 분류: 한 문헌은 한 클러스터에만 포함될 수 있음 * 내재적 분류(비지도학습) * 외재적 분류(지도학습) * 계층적 분류

수업노트/정보검색론 2012. 10. 22. 17:51

정보검색론 3. 텍스트의 자동색인 (2)

3.2.4. 적합성 가중치 적합성 가중치는 문헌집단을 구성하는 문헌들을 질의에 대해 적합문헌과 부적합문헌으로 구분한 뒤, 그 속에서의 단어 출현빈도를 이용하여 산출하는 가중치이다. 즉 이 계산을 위해서는 색인어에 대해 적합/비적합 문헌을 사전에 구별해놓는것이 필요하다. 적합문헌(Relevant) 부적합문헌 총합 색인어가 부여된 문헌 r n-r n 부여되지 않은 문헌 R-r N-n-R+r N-n 총합 R N-R N 이를 이용하여 가중치는 다음과 같이 구할 수 있다. 처음에는 모든 검색어가 적합문헌에 출현할 확률이 똑같다고 가정하면 다음과 같은 식을 유도할 수 있다. 즉 충분히 큰 N에 대해서 W4의 초기값은 역문헌빈도 공식의 가중치 값과 유사해진다. 3.2.5. 2-포아송 분포 모형 포아송 분포모형: 어떤..

수업노트/정보검색론 2012. 10. 22. 16:52

정보검색론 3. 텍스트의 자동색인 (1)

3.1. 자동색인 개요 자동색인: 컴퓨터를 통해 문헌의 내용을 대표할수 있는 단어나 단어구를 선정하는 작업 비주제어: 흔히 공통적으로 출현하는 일반명사, 형용사, 부사 등. 불용어(stop words)로 처리한다. 기본 가설 * 문헌에 출현한 단어들은 내용 분석을 위해 사용될 수 있다. * 단어의 출현빈도로 주제어로서의 중요성을 측정할 수 있다. (통계적 기법) * 특정한 구문적 기능을 수행하는 단어(구)가 문헌의 내용을 대표한다. (언어학적 기법) * 특정한 위치에 출현한 단어(구)가 문헌의 내용을 대표한다. (구조적 기법) 자동색인 과정 1. 문헌집단에서 색인어로 사용될 단어들을 식별한다. 2. 불용어 리스트를 활용하여 가치가 없는 고빈도어를 제거한다. 3. 형태소 분석기(KLT, Porter ste..

수업노트/정보검색론 2012. 10. 21. 02:32

정보검색론 2. 색인 및 시소러스 (2)

2.3.1. 시소러스의 활용 * 수작업 구축 시소러스(manual thesaurus)* 자동 구축 시소러스(automatic thesaurus) 시소러스를 활용하는 유형1. 색인과 검색 단계에서 모두 활용2. 색인에서만 활용3. 검색에서만 활용4. 안 씀ㅋ 1번은 시소러스에 익숙한 정보전문가가 이용할 경우 높은 검색 성능을 가져올 수 있음. 2번은 검색어로 입력된 키워드를 디스크립터로 매핑하거나, 유사한 의미관계에 있는 디스크립터를 추가함으로써 성능향상을 도모할 수 있음. 2.3.2. 시소러스의 구성 (1) 등가관계: 동의어, 유사동의어, USF/UF (Used For) -동일한 의미, 별도의 철자, 별도의 어순, 약어와 완전어 등의 관계 (2) 계층관계: 상위-하위 관계. BT(Broader Term)..

수업노트/정보검색론 2012. 10. 21. 01:22

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

블로그 이미지

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

댓글

태그

한국고대경제와사회 Direct3D 정보조직론 php 우리역사바로알기대회 pg어 문헌정보통계 악보 c++ 텍스트 마이닝 리듬게임 BigFloat 포니게임 라틴어 NLP python kiwi 자연언어처리 토픽 모델링 영어구조론

방문자

오늘
어제
전체

페이징

이전
1 2
다음
나의 큰 O는 log x야
메일 bab2min@gmail.com
Skin Images are from Stinkehund.

티스토리툴바