'python' 태그의 글 목록

Kiwi로 한국어 문장 분리하기

우리의 생각이나 감정은 문장이라는 단위를 통해 표현됩니다. 문장은 여러 개의 단어로 이루어지며 주어와 술어를 갖춤으로써 그 자체로 완결된 의미를 드러냅니다. 그래서 텍스트를 분석할 때 문장을 최소 단위로 설정하면 유용한 경우가 많죠. 맞춤법에 맞춰 쓴 문장은 항상 마침표(. ! ?)로 끝나므로 이들을 분리하는 건 굉장히 쉬운 일입니다. 그러나 문제는 인터넷 상에서 접하는 텍스트처럼 격식을 덜 갖춘 글들이죠. 사람은 글을 읽어보고 어디서 문장이 끝나는지를 쉽게 알 수 있지만, 컴퓨터에게는 매우 난감한 문제입니다. 이번 포스팅에서는 Kiwi에 문장 분리 기능이 추가된 기념으로 문장 분리라는 과제에 대해 살펴보고, 현존하는 도구들의 정확도를 평가해보는 시간을 가지도록 하겠습니다. 문제 상황 전 애초에 한숨봇 ..

프로그래밍/NLP 2021. 12. 23. 02:05

[Python] tomotopy로 Correlated Topic Model 수행하고 시각화하기

이전 포스팅에서 Correlated Topic Model을 통해서 뉴스 기사를 분석하고 주제 간의 상관관계를 뽑아낸 적이 있습니다. 최근 tomotopy에 CTM을 추가해서 누구나 쉽게 따라해볼 수 있게 된 김에 간단하게 따라해볼 수 있는 코드를 공유드립니다! 기본 코드는 tomotopy github의 예제코드(https://github.com/bab2min/tomotopy/blob/master/examples/ctm_network.py)와 동일하되, 전처리 부분만 한국어 전용으로 변경되었습니다. import tomotopy as tp # 토픽 모델링에 사용할 패키지 from kiwipiepy import Kiwi # 한국어 형태소 분석에 사용할 패키지 from pyvis.network import Ne..

프로그래밍/NLP 2020. 6. 9. 22:37

그림으로 깁스샘플링 이해하기

깁스 샘플링에 대해서는 토픽 모델링 공부를 하면서 귀에 피가 나도록 들었었는데요, 사실 그 실체를 정확하게 파악하는데에는 꽤 오랜 시간이 걸렸었습니다. 막연하게만 이해하고 있던 깁스 샘플링을 정확하게 깨닫게 된 건 어떤 2장 짜리 논문에서 본 그림 덕분이었는데, 이번 포스팅에서는 그걸 공유해보고자 합니다.참고한 논문은 다음과 같습니다. Breslaw, J. A. (1994). Random sampling from a truncated multivariate normal distribution. Applied Mathematics Letters, 7(1), 1-6. 다변수 정규 분포다변수 정규 분포(Multivariate Normal Distribution)에 대해서는 상관 토픽 모델 포스팅에서 살짝 설명..

그냥 공부 2020. 1. 3. 00:13

심심해서 해보는 딥러닝을 이용한 악기 소리 분류

음악을 듣다보면 참 신비로운 소리들이 많습니다. 피아노 소리처럼 익숙한 음색도 있지만, 스틸 드럼처럼 낯선듯 익숙한듯 뭔지 모를 음색들도 많지요. 종종 듣다보면 그거 참 신기한 음색인데 어떤 악기인지는 감도 안 잡힐때가 있습니다. 이것 참 지식인에 음악을 올려서 무슨 악기냐고 물어볼 수도 없고, 궁금함에서만 멈춰야한 적이 있었는데요, 딥러닝으로 핫한 시대에 맞춰 소리에 따라 악기를 분류해주는 모델을 만들어보면 좋겠다는 생각이 들었습니다. 이 포스팅은 그 기나긴 대장정의 첫 걸음입니다. 학습 데이터 만들기 딥 러닝 모델을 만드는 건 어렵지 않습니다. 데이터만 충분히 있다면요. 문제는 악기별로 음색을 분류해서 녹음해놓은 데이터셋을 찾아보기 어렵다는 것입니다. 단, 실제 악기를 녹음해놓은 데이터셋은 많지 않지..

프로그래밍 2019. 12. 2. 21:52

[Python] tomotopy로 문헌별 토픽 비중 계산하기

이전 글(https://bab2min.tistory.com/633)에서 tomotopy로 간단하게 토픽 모델링을 실시하는 방법에 대해 소개했었는데요, 많은 분들께서 문헌별 주제 비중 계산하는데에 어려움을 겪고 계신듯하여, 문헌별 토픽 비중을 계산하는 방법을 이번 글에서 별도로 소개하도록 하겠습니다. 먼저 다음과 같이 LDA 토픽 모델을 학습시키도록 하겠습니다.import tomotopy as tp # 먼저 모듈을 불러와야겠죠 model = tp.LDAModel(k=20, alpha=0.1, eta=0.01, min_cf=5) # LDAModel을 생성합니다. # 토픽의 개수(k)는 20개, alpha 파라미터는 0.1, eta 파라미터는 0.01 # 전체 말뭉치에 5회 미만 등장한 단어들은 제거할 겁니다..

프로그래밍/NLP 2019. 12. 1. 00:26

[토픽 모델링, tomotopy] sLDA를 이용하여 스팸 메일 분류하기

sLDA(supervised LDA)라는 토픽 모델링 기법에 대해서는 아주 옛날에 제 블로그 포스팅에서 짧게 소개한 적이 있습니다. LDA가 문헌 집합 내에서 주제들을 찾아서 각 문헌에는 어떤 주제가 얼만큼씩 들어있는지는 찾아내는 작업이라면, sLDA에서는 문헌에서 각 주제가 얼만큼 있는지를 찾아낸 다음, 그 주제 분포를 바탕으로 문헌의 특성(response variable)을 예측하는 작업이라고 할 수 있습니다. 통계로 비유로 들자면 LDA는 문헌들 안에 있는 내용을 잘 정리해서 보여주는 기술 통계와 같은 것이고, sLDA는 LDA로 얻은 정보를 바탕으로 새로운 사실을 예측하는 추리 통계와 같은 것입니다. 수학적으로 풀어헤쳐보면, sLDA는 결국 LDA에 회귀 모형(regression)을 덧붙인 것과 ..

그냥 공부 2019. 8. 21. 02:40

[Python] Segmented Least Squares를 이용해 구간 나누기

최소제곱법(Least Square Approximation)은 데이터를 근사하는 모형을 찾는데 흔히 사용하는 방법입니다. 참값과 근사값의 오차의 제곱합이 최소가 되게한다고 해서 최소제곱법이라고 부르지요. 대표적인 사례가 선형회귀입니다. 두 변수가 가지는 관계를 좌표평면 상에 늘어놓고, 데이터의 분포를 최대한 잘 근사하는 직선을 찾는 일입니다. 그 형태가 간단하고 닫힌 해가 알려져 있어서 통계학에서는 기초 중의 기초로 널리 쓰이고 있습니다. 근데 때로는 전체 데이터의 분포가 하나의 직선으로 표현하기에 어려운 경우도 있습니다. 이 경우 선형이 아닌 좀 더 복잡한 모형을 사용하는 방법을 쓸 수도 있고, 선형 모형 여러개를 결합하여 데이터를 표현하는 방법을 쓸 수도 있습니다.오늘의 주제는 오른쪽과 같이 복잡한 ..

프로그래밍 2019. 2. 27. 18:23

[Python] 임의의 웹 페이지에서 텍스트를 추출하기

텍스트 마이닝을 하는 데에 있어 텍스트 데이터를 수집하는것은 아주 중요합니다. 아무리 휘황찬란한 텍스트 분석 기술이 있어도 분석할 텍스트가 없다면 쓸모가 없으니깐요. 과거였다면 대량의 텍스트 데이터를 구하는게 어려운 작업이었겠지만, 현재는 다행히도 웹으로부터 (정제되지는 않았지만) 수많은 텍스트를 구할 수 있습니다. 웹 페이지에서 텍스트를 추출하는 작업은 의외로 간단합니다. 웹 페이지들은 HTML이라는 마크업 랭귀지로 구성되어 있고, 여기에서 필요한 텍스트만을 뽑아오는건 HTML 파서나 정규표현식 등을 이용해 쉽게 이뤄질 수 있기 때문입니다. 다만 문제는 우리가 보는 웹 페이지에는 실제 알맹이보다 다양한 껍데기들이 많다는 것입니다. 위 사진은 한 신문사의 기사 페이지입니다. 이 페이지의 알맹이는 기사 내..

프로그래밍 2018. 11. 4. 15:34

나의 큰 O는 log x야

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

python

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

댓글

태그

방문자

페이징

티스토리툴바