'분류 전체보기' 카테고리의 글 목록 (4 Page)

"익숙함에 속아 소중함을 잃지 말자"가 어린왕자에서?

"익숙함에 속아 소중함을 잃지 말자"라는 인터넷에 떠도는 명언이 있는데, 출처가 생택쥐페리의 라고 합니다. 영문으로는 "Remembering not to lose preciousness as being deceived by familiarity."이라하는데, 사실 검색을 해보면 알 수 있듯이, 이 문장은 한국인이 작성한 글에서만 등장합니다. 즉, 저 영문은 한국인이 만들어낸 것이라는 것.더 나아가 에서 preciousness나 familarity로 검색해도 위와 의미가 통하는 문장은 전혀 등장하지 않는다. 애초에 저런 의미의 문장이 최소 영역본에는 없는 것. 불문판에는 있을지도 모르지만, 불어가 병기된 채로 인터넷에 떠돌지 않는 것으로 볼 때 불문판에서 따왔을 가능성도 낮아보입니다. 그냥 누군가 그럴싸한..

가짜 정보 정정합니다. 2020. 4. 19. 01:43

[C++ 11] 문자가 특정 문자 집합에 속하는지 우아하게 테스트하기

고전적 방법으로 문자 집합 소속 여부 테스트하기문자열 처리를 하다보면 빠질수 없는 작업이 어떤 문자가 특정 문자 집합에 속하는지 확인하는 것일 겁니다. 예를 들어 'b'가 A~F 범위에 속하는지, '간'이 가~깋 범위에 속하는지 비교하는 것처럼요. 일반적으로 이 작업은 if문을 몇번 써서 수행할 수 있습니다. 예를 들어 특정 문자가 A-F 범위에 속하는지를 확인하는 함수는 다음과 같이 작성할 수 있지요.bool is_in_a_f(int c) { return 'A'

프로그래밍/테크닉 2020. 3. 30. 02:02

[토픽 모델링] 토픽에 자동으로 이름 붙이기

토픽 모델링을 실시하고 나면 주제별로 단어 분포가 계산되어 나옵니다. 그리고 각 문헌들에 어떤 주제가 얼만큼씩 분포하는지도 알아낼 수 있습니다. 이 때문에 대량의 문헌이 어떤 내용을 다루고 있는지 파악하기 위해서 자주 사용되지요. 근데 문제는 각 주제가 주제 번호 #1, #2 등으로 구분될 뿐, 실제 주제가 다루는 내용을 알기 위해서는 주제별 단어 분포를 확인해야 합니다. 이러면 불편하기 때문에 사람이 직접 주제별 단어 분포를 보고 주제에 이름을 붙여주는 작업을 진행하죠.그래서 주제 개수가 너무 많으면, 주제에 일일히 이름을 붙여주기 고되기 때문에 보통 토픽 모델링의 주제 개수는 10~100 개 정도로 한정합니다. 사실 문헌 집합이 더 크면 주제 개수를 더 키워야하는데, 그러면 현실적으로 그 많은 주제들..

그냥 공부 2020. 3. 19. 21:45

슈퍼 마리오 갤럭시 한글판 HD 텍스처 팩

슈퍼 마리오 갤럭시는 참 잘 만든 게임입니다. Wii 게임치고는 준수한 그래픽에 멋지고 화려한 사운드, 거기다가 재밌는 조작 체계까지 지금해도 참 재미있습니다. 단 문제가 한 가지 있다면 나온지가 10년도 훨씬 넘은 Wii 게임이기 때문에 최소 Full HD, 더 나아가 4K에 익숙한 요즘 사람들 눈에는 자글자글한 그래픽이 참... 봐주기가 어렵다는 것이죠.예전에는 참 재미있게 했었는데, 최근 갑자기 다시 생각이 나더라구요. 그래서 방구석에 쳐박혀 있던 게임기를 꺼내서 다시 조립하고 세팅하고 켰는데 웬걸 예상치 못한 저해상도에 그만 게임기를 다시 꺼버리고 말았습니다. 서양에도 이런 양덕들이 꽤 있었는지, 아예 Wii 게임을 PC로 에뮬레이션하고 여기에 해상도를 높이고 HD 텍스처를 덮어씌워서 4K로 게임..

잉여 2020. 3. 8. 12:20

그림으로 깁스샘플링 이해하기

깁스 샘플링에 대해서는 토픽 모델링 공부를 하면서 귀에 피가 나도록 들었었는데요, 사실 그 실체를 정확하게 파악하는데에는 꽤 오랜 시간이 걸렸었습니다. 막연하게만 이해하고 있던 깁스 샘플링을 정확하게 깨닫게 된 건 어떤 2장 짜리 논문에서 본 그림 덕분이었는데, 이번 포스팅에서는 그걸 공유해보고자 합니다.참고한 논문은 다음과 같습니다. Breslaw, J. A. (1994). Random sampling from a truncated multivariate normal distribution. Applied Mathematics Letters, 7(1), 1-6. 다변수 정규 분포다변수 정규 분포(Multivariate Normal Distribution)에 대해서는 상관 토픽 모델 포스팅에서 살짝 설명..

그냥 공부 2020. 1. 3. 00:13

[C++] 빠른 generate_canonical 함수 만들기

C++11 표준에서부터 랜덤 함수와 관련된 여러 라이브러리들이 추가되었는데요, 그 중 랜덤한 실수를 생성하기 위한 제일 기초적인 함수로 std::generate_canonical이 있습니다. 이 함수는 임의 부동소수점 타입의 수를 [0, 1) 범위 (0~1인데 0은 포함하고 1은 포함하지 않음)에서 임의로 생성합니다. 또한 이 때 생성할 난수의 최소 랜덤 비트를 템플릿 인자로 설정할 수 있게 되어있습니다. 이 함수는 제일 기본적인 실수 난수를 생성하므로, 이보다 더 복잡한 실수 난수들(정규 분포에서 뽑기, 베타, 감마 분포에서 뽑기 등)은 이 함수의 결과값을 바탕으로 사용합니다. 즉 랜덤 실수 생성의 기본 중의 기본이라 할 수 있습니다. 또한 깁스 샘플링과 같이 확률적 샘플링을 사용하는 프로그램을 짜게 ..

프로그래밍/테크닉 2019. 12. 25. 14:35

심심해서 해보는 딥러닝을 이용한 악기 소리 분류

음악을 듣다보면 참 신비로운 소리들이 많습니다. 피아노 소리처럼 익숙한 음색도 있지만, 스틸 드럼처럼 낯선듯 익숙한듯 뭔지 모를 음색들도 많지요. 종종 듣다보면 그거 참 신기한 음색인데 어떤 악기인지는 감도 안 잡힐때가 있습니다. 이것 참 지식인에 음악을 올려서 무슨 악기냐고 물어볼 수도 없고, 궁금함에서만 멈춰야한 적이 있었는데요, 딥러닝으로 핫한 시대에 맞춰 소리에 따라 악기를 분류해주는 모델을 만들어보면 좋겠다는 생각이 들었습니다. 이 포스팅은 그 기나긴 대장정의 첫 걸음입니다. 학습 데이터 만들기 딥 러닝 모델을 만드는 건 어렵지 않습니다. 데이터만 충분히 있다면요. 문제는 악기별로 음색을 분류해서 녹음해놓은 데이터셋을 찾아보기 어렵다는 것입니다. 단, 실제 악기를 녹음해놓은 데이터셋은 많지 않지..

프로그래밍 2019. 12. 2. 21:52

[Python] tomotopy로 문헌별 토픽 비중 계산하기

이전 글(https://bab2min.tistory.com/633)에서 tomotopy로 간단하게 토픽 모델링을 실시하는 방법에 대해 소개했었는데요, 많은 분들께서 문헌별 주제 비중 계산하는데에 어려움을 겪고 계신듯하여, 문헌별 토픽 비중을 계산하는 방법을 이번 글에서 별도로 소개하도록 하겠습니다. 먼저 다음과 같이 LDA 토픽 모델을 학습시키도록 하겠습니다.import tomotopy as tp # 먼저 모듈을 불러와야겠죠 model = tp.LDAModel(k=20, alpha=0.1, eta=0.01, min_cf=5) # LDAModel을 생성합니다. # 토픽의 개수(k)는 20개, alpha 파라미터는 0.1, eta 파라미터는 0.01 # 전체 말뭉치에 5회 미만 등장한 단어들은 제거할 겁니다..

프로그래밍/NLP 2019. 12. 1. 00:26

나의 큰 O는 log x야

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

분류 전체보기

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

댓글

태그

방문자

페이징

티스토리툴바