'수업노트' 카테고리의 글 목록

빠른 구문 검색을 위한 인덱싱 기법

'포도 주스'라고 검색한다면 '포도'가 포함된 문헌과 '주스'가 포함된 문헌의 교집합을 보여줄수도 있지만(이는 고전적인 불리언 검색 모형에서의 AND 연산자를 이용하는 것과 동일합니다), 정확하게 '포도'라는 단어 다음에 '주스'라는 단어가 등장하는 문헌만을 보여줄 수도 있죠. 후자의 경우를 구문 검색(Phrase Query)이라고 합니다. 단어 하나 만으로는 원하는 결과를 정확하게 얻지 못할 수 있기 때문에 사람들은 두 단어 이상의 구문을 질의어로 입력하는 경우가 많습니다. 문제는 고전적인 불리언 검색 모형에서는 구문 검색 시 구문의 길이가 길어질수록 검색 속도가 현격하게 떨어진다는 것입니다. 당연히 이를 극복하기 위한 방법들이 제시되었겠죠? 본 포스팅에서는 다음 논문의 내용을 기반으로 큰 성능 손실 ..

수업노트 2018. 10. 14. 18:44

벡터 공간 모형에서의 효과적인 질의 평가 방법 - WAND를 활용한 2단계 검색

정보 검색 모형 중 벡터 공간 모형(질의와 문헌을 벡터 공간 상의 좌표로 표현하고, 검색 시 질의와 문헌 좌표 간의 코사인 유사도를 계산하여 정렬하는 모형)은 안정적이면서 뛰어난 성능 덕분에 현재 다양한 검색 엔진에 널리 쓰이고 있습니다. 문제는 두 좌표 상의 코사인 유사도를 계산하는 것이 생각보다 비싼 연산이라는 것입니다. 벡터 공간의 dimension이 V일 경우, 총 V번의 곱셈과 덧셈이 필요하죠. 이게 모든 쿼리-문헌에 대해 계산되어야 전체 문헌에 대한 순위화가 가능하므로, 문헌이 총 D개라고 할 경우 최소 D*V 번의 곱셈이 필요합니다. 문헌 갯수 D가 커질수록 덩달아 V도 커질테니, 사실상 그 전체 연산 비용은 어마어마하게 늘어날 것이라고 예상할 수 있겠습니다. 이는 대량의 정보를 처리해야하는..

수업노트 2018. 10. 13. 14:57

사회과학 연구방법론

1. 서론연구방법론은 왜 필요한가?- 연구방법론은 선배 연구자들에 의해 오랜 시간 동안 검증된 방법. 이를 활용하면 연구가 잘못된 결과로 나아가는 것을 최소화할 수 있음. (가이드)- 그 결과 유효한 사회 과학 연구, 타당성 있는 연구를 진행하기 위해 (타당성)- 연구자와 연구 소비자 간의 의사소통 수단. 예를 들어 t값, p값을 제시하는 것만으로 이 연구가 가지는 의미를 간결하고 쉽게 표현할 수 있음(의사소통) 우리는 어떻게 알게 되는가?- 개인적 경험: 소수에게만 적용 가능, 제한적, 주관적- 전통이나 관습, 주변인 (미신, 속설 등): 축적된 지혜, 문화적 편견 개입 가능성, 근거가 제한적- 전문가: 신용과 자격, 기록으로 남는 성과, 물리적인 실체가 있는 경우 많음(이론, 논문, 자격증 등) 알기..

수업노트 2018. 6. 28. 23:16

SentiWordNet과 감성분석

이 포스팅은 2017년 1학기 수업에서 사용한 발표자료를 정리하여 작성하였습니다. 감성 분석(Opinion Mining)이란사람이 작성하는 텍스트 안에는 그 글의 주요 대상이 되는 주제(Topic)가 있을 것이고, 그 주제에 대한 글쓴이의 의견(Opinion)이 있게 마련입니다. 글의 대상이 되는 주제를 찾아내는 작업을 토픽 모델링(Topic Modeling)이라고 하며 이전에 다루었던 LDA와 같은 방법이 널리 쓰이지요. 이 기술은 자동적으로 텍스트가 다루는 주제가 무엇인지 계산해내는 방법을 제공합니다. 마찬가지로 그 주제에 대한 글쓴이의 의견을 파악하는 것을 감성 분석(Opinion Mining, 또는 감성분류, sentiment classification)이라고 합니다. 이 기술을 이용하면 어떤 글..

수업노트 2017. 5. 25. 02:25

[고고학연구법] 고고학사, 발굴, 연대측정

고고학(Archaeology : ἀρχαῖος + λόγος) 고고학사 층위 발굴 연대 측정상대연대 측정법: 사건의 선후관계만을 파악하는 연대 결정법층서법: 누중의 법칙(아래쪽에 쌓인 지층이 위쪽보다 오래되었음)과 공반(동일 퇴적층에서 발견되는 유물은 같은 시기에 묻혔음)을 이용해 선후관계를 파악형식분류법: 생물종이 점진적으로 진화하듯 유물도 마찬가지. 유물의 양식이 변화해나가는 것을 살피면, 생성 연대가 비슷할 수록 유물 양식이 비슷하고, 생성 연대 차이가 클 수록 유물 양식의 차이가 커진다는 것을 알수 있음. 이를 통해 유물 간의 선후관계를 파악.표준화석: 생존 기간이 짧고 진화 속도가 빠르며 넓은 지역에 걸쳐 산출되는 화석으로, 지층의 생성 시기를 알려준다. 지층에서 발견되는 표준화석을 통해 공반된..

수업노트 2016. 10. 20. 09:20

[문헌정보학입문] 시각화자료

도서관, 기능, 수집, 조직, 축적, 서비스, 경영, 마케팅단어 추출, 색인어, 가중치, 불용어, 형태소 분석 목록, 기능, 검색, 식별, 선정, 접근, 계획, 구조원칙, 전거제어, 책자목록, 카드목록, 기계가독목록, MARC 메타데이터, 단순형식, 구조화형식, 정교화형식, 웹 자료 대상, Dublin Core, CDWA, CSDGM, INDECS, ONIX, MARC, 확장성, 단순성, 상호운용가능성, RDF

수업노트 2016. 6. 11. 23:47

[문헌정보통계] 10. 카이제곱 검정

카이제곱(χ2) 검정실제 발생한 빈도가 예상했던 빈도와 일치하는지 여부를 확인할 때 사용.1. 전체 범주 중 80%이상의 빈도값이 5 이상이고, 2. 측정치들이 독립적이어야 한다는 두 가지 전제가 요구됨.쓰임여러 집단의 분산이 서로 같은지 아닌지해당 분류의 빈도가 이론적으로 예상한것에 적합한지(적합도 검정)두 변수가 독립적인지 아닌지(독립성 검정)계산법카이제곱값은 다음과 같이 계산할 수 있다. (여기서 F_o는 실제 관측치, F_e는 기대치)사례들이 고루 분포한다고 가정할때 기대치는 다음과 같이 계산된다. 해당 빈도가 속한 행의 총합과 열의 총합을 곱한뒤 전체 총합으로 나누면 됨.적합도 검정하나의 범주형 변수의 분포가 예상한 것에 일치하는지 검정.이때 df = K-1 (K는 전체 범주의 수)독립성 검정(..

수업노트 2016. 6. 11. 01:36

[문헌정보통계] 9. 회귀분석

회귀분석(Regression)상관관계가 두 변수간의 선형관계를 조사한다면, 회귀분석은 인과관계를 분석한다.수식을 도출하여 예측을 가능하게 함.독립변수: 예측변수. 현재의 데이터나 얻기 쉬운 데이터종속변수: 기준변수. 미래의 데이터나 얻기 어려운 데이터얻기 쉬운 데이터를 독립변수로 설정하여, 얻기 어려운 데이터를 추정할 수 있음. 단순회귀분석: 독립변수가 하나인 경우다중회귀분석: 독립변수가 여러 개인 경우 독립변수 X와 종속변수 Y가 주어졌을때 다음과 같이 기울기와 y절편을 구할 수 있다.b는 기울기, a는 y절편이다. 이럴때 X와 Y의 관계는 다음과 같은 선형식으로 예측이 가능하다.위 그래프에서 파란점들이 X,Y로 측정된 값들이라고 할때, X의 평균과 Y의 평균은 빨간 선처럼 구해진다. 이를 바탕으로 X..

수업노트 2016. 6. 11. 01:03

나의 큰 O는 log x야

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

수업노트

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

댓글

태그

방문자

페이징

티스토리툴바