나의 큰 O는 log x야

고정 헤더 영역

글 제목

메뉴 레이어

나의 큰 O는 log x야

메뉴 리스트

  • 홈
  • Tag
  • Guestbook
  • Admin
  • 분류 전체보기
    • 적분史
    • 프로그래밍
      • PG어
      • 테크닉
      • 3D
      • Multi precision
      • 포니게임개발
      • 스페샬
      • NLP
    • 소리
    • 언어
      • 어원 이야기
      • 라틴어
    • 수업노트
      • 한국고대경제와사회
      • 영어구조론
      • 정보검색론
      • 인간의삶과역사속의미생물
      • 기타
    • 잉여
      • 미래
      • 수학
      • 종교개혁
    • 그냥 공부
    • 가짜 정보 정정합니다.

검색 레이어

나의 큰 O는 log x야

검색 영역

컨텐츠 검색

분류 전체보기

  • 형태소 분석기의 모호성 해소 성능을 평가해보자

    2022.03.27 by ∫2tdt=t²+c

  • [Kiwi] 문장 같은 고유명사 잘 추출해내기

    2022.03.20 by ∫2tdt=t²+c

  • 이진 탐색은 어디까지 빨라질 수 있을까?

    2022.01.15 by ∫2tdt=t²+c

  • Kiwi로 한국어 문장 분리하기

    2021.12.23 by ∫2tdt=t²+c

  • [C++11] 멤버 함수 포인터를 일반 함수 포인터로 바꾸기

    2021.08.08 by ∫2tdt=t²+c

  • 어떤 언어 모델이 좋을까 - 언어 모델을 평가해보자

    2021.06.29 by ∫2tdt=t²+c

  • 어떤 언어 모델이 좋을까 - 언어 모델의 간략한 역사

    2021.06.22 by ∫2tdt=t²+c

  • Lamon : 라틴어 품사 태거 개발기

    2020.10.20 by ∫2tdt=t²+c

형태소 분석기의 모호성 해소 성능을 평가해보자

문제 상황 한국어 텍스트를 기계를 통해 분석하다 보면 기계가 아직 얼마나 한국어를 모르는지 다시 한 번 느끼게 됩니다. 한국인이 봤을땐 누가봐도 명백하게 모호하지 않은 문장을 헷갈려할 때가 바로 대표적인 예일겁니다. 규칙 활용하는 동사 "묻다"와 불규칙 활용하는 동사 "묻다", 또 규칙활용하는 "물다"는 그 활용형이 서로 겹칩니다. 아래 표로 정리하면 더 명확해지죠: 묻다 2 묻다 3 물다 1 뜻 물건을 특정 장소 속에 넣고 다른 물질로 위를 덮어서 가리다. 대답이나 설명을 요구하며 말하다. 어떤 것을 윗입술과 아랫입술 사이에 또는 윗니와 아랫니 사이에 끼워 넣고 벌어진 두 입술이나 이를 다물어 누르다. 예문 거름을 묻다, 시신을 묻다 견해를 묻다, 근황을 묻다 담배를 물다, 젖병을 물다 활용 묻어, 묻..

프로그래밍/NLP 2022. 3. 27. 01:11

[Kiwi] 문장 같은 고유명사 잘 추출해내기

고유명사 처리의 어려움 형태소 분석을 진행할 때 어려운 부분 중 하나는 고유명사(NNP) 처리입니다. 나머지 품사의 경우는 말뭉치를 잘 구축해두면 그 안에서 어지간한 패턴은 다 등장합니다만, 고유명사의 경우 그 특성상 끊임없이 새로 생성되기 때문에 아무리 말뭉치를 잘 구축해둬도 시간이 조금만 흐르면 새로 등장한 고유명사는 다 놓치게 됩니다. 그래서 대부분의 형태소 분석기는 사용자가 직접 사전 내에 새로운 단어를 삽입하여 이런 문제를 완화하고자 하지요. 새로 추가된 고유명사는 해당 문자열이 오분석되는 것을 막기 위해 대개 일반 분석 결과보다 더 높은 우선순위를 가지게 됩니다. 즉, 기존의 분석 결과를 새로 추가된 고유명사가 덮어쓴다고 할까요. 입력 분석결과 도전무한지식 도전/NNG 무한/NNG 지식/NNG..

프로그래밍/NLP 2022. 3. 20. 21:58

이진 탐색은 어디까지 빨라질 수 있을까?

수 많은 값들 속에서 특정 값의 위치를 찾는건 컴퓨터가 수행하는 작업들 중 가장 기본적인 작업이면서도 자주 쓰이는 작업입니다. 특정 이름으로 된 파일을 열거나, 주소를 이용해 특정 사이트에 접속하거나, 검색엔진에 검색어를 입력해 원하는 결과를 찾는 일 등 수많은 작업들이 결국에는 데이터의 위치를 찾는 작업으로 귀결되지요. 그래서 컴퓨터 과학에서는 이런 종류의 작업에 '검색 알고리즘(Search Algorithm)'이라는 이름을 붙여서 심도 있게 연구하고 있습니다. 이번 포스팅에서 다룰 내용은 값 집합이 고정되어 있는 상태에서 특정 값이 해당 집합 내에 존재하는지, 존재하면 어느 위치에 존재하는지를 찾는 것입니다. 따라서 값 집합에 새로운 값이 추가되거나 값 집합에서 특정 값이 제거되는 등 값 집합 자체가..

프로그래밍/테크닉 2022. 1. 15. 15:15

Kiwi로 한국어 문장 분리하기

우리의 생각이나 감정은 문장이라는 단위를 통해 표현됩니다. 문장은 여러 개의 단어로 이루어지며 주어와 술어를 갖춤으로써 그 자체로 완결된 의미를 드러냅니다. 그래서 텍스트를 분석할 때 문장을 최소 단위로 설정하면 유용한 경우가 많죠. 맞춤법에 맞춰 쓴 문장은 항상 마침표(. ! ?)로 끝나므로 이들을 분리하는 건 굉장히 쉬운 일입니다. 그러나 문제는 인터넷 상에서 접하는 텍스트처럼 격식을 덜 갖춘 글들이죠. 사람은 글을 읽어보고 어디서 문장이 끝나는지를 쉽게 알 수 있지만, 컴퓨터에게는 매우 난감한 문제입니다. 이번 포스팅에서는 Kiwi에 문장 분리 기능이 추가된 기념으로 문장 분리라는 과제에 대해 살펴보고, 현존하는 도구들의 정확도를 평가해보는 시간을 가지도록 하겠습니다. 문제 상황 전 애초에 한숨봇 ..

프로그래밍/NLP 2021. 12. 23. 02:05

[C++11] 멤버 함수 포인터를 일반 함수 포인터로 바꾸기

C++로 개발을 하다보면 종종 C API를 호출해야하는 경우가 있습니다. 많은 유용한 라이브러리나 OS 등이 C API만 제공하고 C++스타일 API를 제공하지 않기 때문인데요, C++ 철학에 맞춰 코드를 짜다가도 이렇게 C API를 호출하려하다보면 코드가 쉽게 지저분해지곤 합니다. C스타일로 작업하면 특히 지저분해지기 쉬운게 자원 획득 & 해제와 콜백 함수 넘기는 작업입니다. 이 중 자원 획득 & 해제는 unique_ptr나 shared_ptr의 custom deleter를 이용하면 어느정도 깔끔하게 처리할 수 있으니, 이번 포스팅에서는 콜백함수를 넘기는 작업에 대해 고민해보려고 합니다. C에서의 콜백함수 콜백함수(Callback)는 나중에 호출하라고 넘겨주는 함수를 가리킵니다. 보통 다음과 같은 형태..

프로그래밍/테크닉 2021. 8. 8. 17:39

어떤 언어 모델이 좋을까 - 언어 모델을 평가해보자

이전 글(https://bab2min.tistory.com/666)에서는 언어 모델의 간략한 역사를 살펴봤는데요, 이번 포스팅에서는 한국어 데이터를 이용해서 이전 글에서 다뤘던 모델들을 학습해보고, 직접 평가를 수행하면서 각 모델들이 얼마나 잘하는지, 무엇을 잘하고 무엇을 못하는지 살펴보고자 합니다. 언어 모델을 어떻게 평가할까 정확도 언어 모델은 이전 단어를 바탕으로 다음 단어를 예측해주는 모델이라고 했습니다. 따라서 언어 모델의 성능을 평가하는 가장 간단한 방법은 모델이 예측한 단어들 중 확률이 제일 높은 것이 실제 단어와 얼마나 동일한지를 따져보는 것이지요. 이를 정확도(Accuracy)라고 합니다. 간단한 예로 4개의 단어로 이뤄진 문장 a, b, c, d가 있다고 할 때, 먼저 시작 문맥에서 예..

그냥 공부 2021. 6. 29. 01:45

어떤 언어 모델이 좋을까 - 언어 모델의 간략한 역사

언어 모델(Language Model)은 특정 문장(=단어의 나열)이 등장할 확률을 계산해주는 모델입니다. 문장에 대해 확률을 계산할 수 있다는 건, 단어(혹은 문장)를 적절하게 선택하거나 생성해야하는 경우 여러 후보 중에서 더 적절한(확률이 높은) 후보를 선택하는 데에 쓰일 수 있다는 뜻이지요. 이 때문에 기계번역, 음성 인식, 철자 교정, OCR 등 언어와 관련된 여러 과제에서 널리 쓰이고 있습니다(이에 대해서는 예전에 몇몇 포스팅에서 간략하게 다룬 적이 있습니다). 게다가 최근 GPT-3와 같은 강력한 언어 모델이 등장하면서 언어모델이 위와 같이 비교적 단순한 과제뿐만 아니라 대화나 긴 글을 통채로 생성하거나, 주어진 예문이나 설명을 바탕으로 새로운 문제를 해결하는 것까지도 가능하다는 것이 밝혀져서..

그냥 공부 2021. 6. 22. 01:54

Lamon : 라틴어 품사 태거 개발기

사람의 언어를 이해하기 위해 컴퓨터가 하는 가장 기본적인 작업은 텍스트에서 단어를 인식하고 그 단어들의 특성을 파악하는 것입니다. 흔히 품사 태거(Part-of-speech Tagger, POS Tagger)라고 부르는 이 도구는 각 단어의 품사를 파악해주는 일을 수행합니다. 문법과 어휘는 언어별로 크게 상이하게 때문에 품사 태거는 각 언어에 맞춰서 개발되어야 하는데요 이 때문에 언어별로 다양한 태거들이 개발되어 왔습니다. 영어는 가장 먼저 품사 태거가 연구된 언어이고, 축적된 데이터와 기법들이 많아 현재는 95% 이상의 정확도(이 정도면 사람과 대등한 수준이라 볼 수 있습니다)로 품사 분석을 수행할 수 있습니다. 반면 한국어의 경우 단어가 단순히 띄어쓰기로 구분되지 않고 여러 형태소가 결합해 하나의 어..

프로그래밍/NLP 2020. 10. 20. 03:04

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

블로그 이미지

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

댓글

태그

리듬게임 정보조직론 NLP 악보 문헌정보통계 영어구조론 php kiwi python Direct3D 한국고대경제와사회 BigFloat pg어 토픽 모델링 우리역사바로알기대회 라틴어 c++ 포니게임 자연언어처리 텍스트 마이닝

방문자

오늘
어제
전체

페이징

이전
1 2 3 4 5 ··· 69
다음
나의 큰 O는 log x야
메일 bab2min@gmail.com
Skin Images are from Stinkehund.

티스토리툴바