나의 큰 O는 log x야

고정 헤더 영역

글 제목

메뉴 레이어

나의 큰 O는 log x야

메뉴 리스트

  • 홈
  • Tag
  • Guestbook
  • Admin
  • 분류 전체보기
    • 적분史
    • 프로그래밍
      • PG어
      • 테크닉
      • 3D
      • Multi precision
      • 포니게임개발
      • 스페샬
      • NLP
    • 소리
    • 언어
      • 어원 이야기
      • 라틴어
    • 수업노트
      • 한국고대경제와사회
      • 영어구조론
      • 정보검색론
      • 인간의삶과역사속의미생물
      • 기타
    • 잉여
      • 미래
      • 수학
      • 종교개혁
    • 그냥 공부
    • 가짜 정보 정정합니다.

검색 레이어

나의 큰 O는 log x야

검색 영역

컨텐츠 검색

프로그래밍

  • [C++11] 인덱스 정보를 유지하면서 효율적으로 정렬하기

    2022.05.30 by ∫2tdt=t²+c

  • 형태소 분석기의 모호성 해소 성능을 평가해보자

    2022.03.27 by ∫2tdt=t²+c

  • [Kiwi] 문장 같은 고유명사 잘 추출해내기

    2022.03.20 by ∫2tdt=t²+c

  • 이진 탐색은 어디까지 빨라질 수 있을까?

    2022.01.15 by ∫2tdt=t²+c

  • Kiwi로 한국어 문장 분리하기

    2021.12.23 by ∫2tdt=t²+c

  • [C++11] 멤버 함수 포인터를 일반 함수 포인터로 바꾸기

    2021.08.08 by ∫2tdt=t²+c

  • Lamon : 라틴어 품사 태거 개발기

    2020.10.20 by ∫2tdt=t²+c

  • [C++] EigenRand 0.3.0: 다변량 분포 추가

    2020.10.17 by ∫2tdt=t²+c

[C++11] 인덱스 정보를 유지하면서 효율적으로 정렬하기

정렬은 컴퓨터 알고리즘에서 매우 자주 쓰이는 중요한 알고리즘입니다. 그래서 대부분의 프로그래밍 언어들은 정렬하는 방법을 언어 문법 차원에서든 기본 라이브러리로든 반드시 제공합니다. 언어 차원에서 제공해주는 정렬 함수는 대체로 최적화가 잘 되어 있어 빠르므로, 컴공 과제를 푸는게 아닌 이상은 정렬을 직접 구현해서 쓸 일은 거의 없지요. 그러나 종종 기본적으로 제공되는 정렬 함수만으로는 부족함을 느낄 때가 있습니다. 바로 인덱스 정보를 유지하면서 정렬을 해야하는 경우입니다. 위의 그림에서와 같이 총 5개의 문자열로 이뤄진 배열을 정렬하는데, 정렬 후 배열의 각 요소들이 원래 어느 위치에 있었는지를 함께 파악해야하는 경우가 있습니다. 배열과 관련된 다양한 문제를 해결하다보면 생각보다 자주 필요한 작업인데요, ..

프로그래밍/테크닉 2022. 5. 30. 01:01

형태소 분석기의 모호성 해소 성능을 평가해보자

문제 상황 한국어 텍스트를 기계를 통해 분석하다 보면 기계가 아직 얼마나 한국어를 모르는지 다시 한 번 느끼게 됩니다. 한국인이 봤을땐 누가봐도 명백하게 모호하지 않은 문장을 헷갈려할 때가 바로 대표적인 예일겁니다. 규칙 활용하는 동사 "묻다"와 불규칙 활용하는 동사 "묻다", 또 규칙활용하는 "물다"는 그 활용형이 서로 겹칩니다. 아래 표로 정리하면 더 명확해지죠: 묻다 2 묻다 3 물다 1 뜻 물건을 특정 장소 속에 넣고 다른 물질로 위를 덮어서 가리다. 대답이나 설명을 요구하며 말하다. 어떤 것을 윗입술과 아랫입술 사이에 또는 윗니와 아랫니 사이에 끼워 넣고 벌어진 두 입술이나 이를 다물어 누르다. 예문 거름을 묻다, 시신을 묻다 견해를 묻다, 근황을 묻다 담배를 물다, 젖병을 물다 활용 묻어, 묻..

프로그래밍/NLP 2022. 3. 27. 01:11

[Kiwi] 문장 같은 고유명사 잘 추출해내기

고유명사 처리의 어려움 형태소 분석을 진행할 때 어려운 부분 중 하나는 고유명사(NNP) 처리입니다. 나머지 품사의 경우는 말뭉치를 잘 구축해두면 그 안에서 어지간한 패턴은 다 등장합니다만, 고유명사의 경우 그 특성상 끊임없이 새로 생성되기 때문에 아무리 말뭉치를 잘 구축해둬도 시간이 조금만 흐르면 새로 등장한 고유명사는 다 놓치게 됩니다. 그래서 대부분의 형태소 분석기는 사용자가 직접 사전 내에 새로운 단어를 삽입하여 이런 문제를 완화하고자 하지요. 새로 추가된 고유명사는 해당 문자열이 오분석되는 것을 막기 위해 대개 일반 분석 결과보다 더 높은 우선순위를 가지게 됩니다. 즉, 기존의 분석 결과를 새로 추가된 고유명사가 덮어쓴다고 할까요. 입력 분석결과 도전무한지식 도전/NNG 무한/NNG 지식/NNG..

프로그래밍/NLP 2022. 3. 20. 21:58

이진 탐색은 어디까지 빨라질 수 있을까?

수 많은 값들 속에서 특정 값의 위치를 찾는건 컴퓨터가 수행하는 작업들 중 가장 기본적인 작업이면서도 자주 쓰이는 작업입니다. 특정 이름으로 된 파일을 열거나, 주소를 이용해 특정 사이트에 접속하거나, 검색엔진에 검색어를 입력해 원하는 결과를 찾는 일 등 수많은 작업들이 결국에는 데이터의 위치를 찾는 작업으로 귀결되지요. 그래서 컴퓨터 과학에서는 이런 종류의 작업에 '검색 알고리즘(Search Algorithm)'이라는 이름을 붙여서 심도 있게 연구하고 있습니다. 이번 포스팅에서 다룰 내용은 값 집합이 고정되어 있는 상태에서 특정 값이 해당 집합 내에 존재하는지, 존재하면 어느 위치에 존재하는지를 찾는 것입니다. 따라서 값 집합에 새로운 값이 추가되거나 값 집합에서 특정 값이 제거되는 등 값 집합 자체가..

프로그래밍/테크닉 2022. 1. 15. 15:15

Kiwi로 한국어 문장 분리하기

우리의 생각이나 감정은 문장이라는 단위를 통해 표현됩니다. 문장은 여러 개의 단어로 이루어지며 주어와 술어를 갖춤으로써 그 자체로 완결된 의미를 드러냅니다. 그래서 텍스트를 분석할 때 문장을 최소 단위로 설정하면 유용한 경우가 많죠. 맞춤법에 맞춰 쓴 문장은 항상 마침표(. ! ?)로 끝나므로 이들을 분리하는 건 굉장히 쉬운 일입니다. 그러나 문제는 인터넷 상에서 접하는 텍스트처럼 격식을 덜 갖춘 글들이죠. 사람은 글을 읽어보고 어디서 문장이 끝나는지를 쉽게 알 수 있지만, 컴퓨터에게는 매우 난감한 문제입니다. 이번 포스팅에서는 Kiwi에 문장 분리 기능이 추가된 기념으로 문장 분리라는 과제에 대해 살펴보고, 현존하는 도구들의 정확도를 평가해보는 시간을 가지도록 하겠습니다. 문제 상황 전 애초에 한숨봇 ..

프로그래밍/NLP 2021. 12. 23. 02:05

[C++11] 멤버 함수 포인터를 일반 함수 포인터로 바꾸기

C++로 개발을 하다보면 종종 C API를 호출해야하는 경우가 있습니다. 많은 유용한 라이브러리나 OS 등이 C API만 제공하고 C++스타일 API를 제공하지 않기 때문인데요, C++ 철학에 맞춰 코드를 짜다가도 이렇게 C API를 호출하려하다보면 코드가 쉽게 지저분해지곤 합니다. C스타일로 작업하면 특히 지저분해지기 쉬운게 자원 획득 & 해제와 콜백 함수 넘기는 작업입니다. 이 중 자원 획득 & 해제는 unique_ptr나 shared_ptr의 custom deleter를 이용하면 어느정도 깔끔하게 처리할 수 있으니, 이번 포스팅에서는 콜백함수를 넘기는 작업에 대해 고민해보려고 합니다. C에서의 콜백함수 콜백함수(Callback)는 나중에 호출하라고 넘겨주는 함수를 가리킵니다. 보통 다음과 같은 형태..

프로그래밍/테크닉 2021. 8. 8. 17:39

Lamon : 라틴어 품사 태거 개발기

사람의 언어를 이해하기 위해 컴퓨터가 하는 가장 기본적인 작업은 텍스트에서 단어를 인식하고 그 단어들의 특성을 파악하는 것입니다. 흔히 품사 태거(Part-of-speech Tagger, POS Tagger)라고 부르는 이 도구는 각 단어의 품사를 파악해주는 일을 수행합니다. 문법과 어휘는 언어별로 크게 상이하게 때문에 품사 태거는 각 언어에 맞춰서 개발되어야 하는데요 이 때문에 언어별로 다양한 태거들이 개발되어 왔습니다. 영어는 가장 먼저 품사 태거가 연구된 언어이고, 축적된 데이터와 기법들이 많아 현재는 95% 이상의 정확도(이 정도면 사람과 대등한 수준이라 볼 수 있습니다)로 품사 분석을 수행할 수 있습니다. 반면 한국어의 경우 단어가 단순히 띄어쓰기로 구분되지 않고 여러 형태소가 결합해 하나의 어..

프로그래밍/NLP 2020. 10. 20. 03:04

[C++] EigenRand 0.3.0: 다변량 분포 추가

개발 동기 이전에 EigenRand라고 Eigen용 난수생성기를 개발한 적이 있는데요, 왜 다변량 분포(multivariate distribution) 지원은 없냐는 문의가 종종 들어오더라구요. 곰곰히 생각해보니 벡터와 행렬을 다루는 라이브러리에서 다변량 분포를 전혀 지원하지 않는게 이상해보여서 추가하기로 마음먹었습니다. 현재 C++표준에는 다변량 분포와 관련된 함수가 없기 때문에 통계/과학 연산을 위해서 널리 쓰이고 있는 Python 라이브러리인 scipy를 참고로하여 추가할 기능들을 정리해보았습니다. 대표적으로 통계학 분야에서 자주 쓰이는 다변량 분포에는 다음과 같은 것들이 있다고 합니다. 다변량 정규분포(Multivariate Normal Distribution) 다항 분포 (Multinomial ..

프로그래밍 2020. 10. 17. 21:50

추가 정보

인기글

  1. -
    자동 요약 기법의 연구 동향 정리

    2018.12.28 03:22

  2. -
    [Python] tomotopy로 쉽게 토픽 모델링 실시하기

    2019.05.22 17:06

  3. -
    -
    [Python] 임의의 웹 페이지에서 텍스트를 추출하기

    2018.11.04 15:34

  4. -
    [Tensorflow] 문자 인식용 신경망 Python3 코드

    2018.11.14 18:28

  5. -
    -
    [기계 학습] Mean Shift 클러스터링

    2019.09.04 23:57

  6. -
    -
    심심해서 해보는 딥러닝을 이용한 악기 소리 분류

    2019.12.02 21:52

  7. -
    -
    [기계 번역] 이중 언어 데이터에서의 단어 임베딩 (Bilingual Word Embeddings from Non-Parallel Docum⋯

    2018.11.30 18:19

  8. -
    -
    Python용 토픽 모델링 패키지 - tomotopy 개발

    2019.05.19 20:32

최신글

  1. -
    -
    [C++11] 인덱스 정보를 유지하면서 효율적으로 정렬하기

    테크닉

  2. -
    -
    형태소 분석기의 모호성 해소 성능을 평가해보자

    NLP

  3. -
    [Kiwi] 문장 같은 고유명사 잘 추출해내기

    NLP

  4. -
    -
    이진 탐색은 어디까지 빨라질 수 있을까?

    테크닉

  5. -
    -
    Kiwi로 한국어 문장 분리하기

    NLP

  6. -
    [C++11] 멤버 함수 포인터를 일반 함수 포인터로 바꾸기

    테크닉

  7. -
    -
    어떤 언어 모델이 좋을까 - 언어 모델을 평가해보자

    그냥 공부

  8. -
    -
    어떤 언어 모델이 좋을까 - 언어 모델의 간략한 역사

    그냥 공부

글쓴이 ∫2tdt=t²+c

블로그 이미지

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

댓글

  1. 국어문법으로 볼 때도 하ㄴㆍ님 이라는 옛날 성경⋯ 08.02 아리아리야
  2. 인정합니다. LDA LSA 설명하는 글 읽으면 골빡부터⋯ 07.17 ㄹㅇ
  3. 답변 감사합니다. 충분한 조언이 되었습니다. 현⋯ 07.16 s달이
  4. 음~ 애매하네요. 사실 가능/불가능의 문제라기보다⋯ 07.16 ∫2tdt=t²+c
  5. 살아있는 라틴어가 한국사람의 라틴어의 수준에 큰⋯ 06.26 amicus

태그

c++ 리듬게임 라틴어 Direct3D 정보조직론 토픽 모델링 php 한국고대경제와사회 텍스트 마이닝 pg어 NLP 정보검색론 BigFloat 자연언어처리 포니게임 python 영어구조론 악보 문헌정보통계 우리역사바로알기대회

방문자

오늘
412
어제
344
전체
1,474,328

페이징

이전
1 2 3 4 ··· 28
다음
나의 큰 O는 log x야
메일 bab2min@gmail.com
Skin Images are from Stinkehund.

티스토리툴바