나의 큰 O는 log x야

고정 헤더 영역

글 제목

메뉴 레이어

나의 큰 O는 log x야

메뉴 리스트

  • 홈
  • Tag
  • Guestbook
  • Admin
  • 분류 전체보기
    • 적분史
    • 프로그래밍
      • PG어
      • 테크닉
      • 3D
      • Multi precision
      • 포니게임개발
      • 스페샬
      • NLP
    • 소리
    • 언어
      • 어원 이야기
      • 라틴어
    • 수업노트
      • 한국고대경제와사회
      • 영어구조론
      • 정보검색론
      • 인간의삶과역사속의미생물
      • 기타
    • 잉여
      • 미래
      • 수학
      • 종교개혁
    • 그냥 공부
    • 가짜 정보 정정합니다.

검색 레이어

나의 큰 O는 log x야

검색 영역

컨텐츠 검색

프로그래밍/NLP

  • 형태소 분석기 Kiwi CoNg (3/4): 모델 성능 비교

    2025.05.19 by ∫2tdt=t²+c

  • 형태소 분석기 Kiwi CoNg (2/4): CoNg 모델 소개

    2025.05.11 by ∫2tdt=t²+c

  • 형태소 분석기 Kiwi CoNg (1/4): 신경망 모델 도입기

    2025.05.04 by ∫2tdt=t²+c

  • 한국어 말뭉치를 통한 사이시옷 사용 실태 조사

    2024.11.04 by ∫2tdt=t²+c

  • LLM으로 게임 텍스트 번역해보기

    2024.08.31 by ∫2tdt=t²+c

  • 형태소 분석기의 모호성 해소 성능을 평가해보자

    2022.03.27 by ∫2tdt=t²+c

  • [Kiwi] 문장 같은 고유명사 잘 추출해내기

    2022.03.20 by ∫2tdt=t²+c

  • Kiwi로 한국어 문장 분리하기

    2021.12.23 by ∫2tdt=t²+c

형태소 분석기 Kiwi CoNg (3/4): 모델 성능 비교

지난 포스팅까지는 Kiwi에서 도입한 CoNg 모델이 어떤 구조인지, 또 왜 이 모델을 도입했는지 간단하게 소개해드렸습니다. 이번 포스팅에서는 신경망 모델인 CoNg이 기존의 통계 기반 모델과 비교해 실제로 얼마나 강력해졌는지 비교 분석해보도록 하겠습니다.Kiwi CoNg 포스팅 시리즈형태소 분석기 Kiwi CoNg (1/4): 신경망 모델 도입기형태소 분석기 Kiwi CoNg (2/4): CoNg 모델 소개형태소 분석기 Kiwi CoNg (3/4): 모델 성능 비교형태소 분석기 Kiwi CoNg (4/4): 모델 최적화 (조만간 공개됩니다)형태소 분석기의 성능 평가형태소 분석기의 성능을 평가하는 가장 정석적인 방법은 입력 문장과 그 문장의 올바른 형태소 분석 결과를 쌍으로 하여 평가 데이터를 구축하고,..

프로그래밍/NLP 2025. 5. 19. 03:17

형태소 분석기 Kiwi CoNg (2/4): CoNg 모델 소개

지난 포스팅에서는 Kiwi에 내장된 통계 기반 언어 모델이 가지는 한계를 살펴보고 신경망 모델 도입 시 얻을 수 있는 혜택이 무엇인지 다뤘습니다. 그리고 어떤 신경망 구조를 사용할지 결정하기 위해서 다음과 같은 조건을 설정했다고 했었죠.모델 크기는 100MB이내속도는 현재 KnLM 기반의 분석기와 유사할 것. 혹시나 느려지더라도 1.5배 이상 느려지면 안됨.또 신경망 모델 중 가장 정교한 것은 Transformer Decoder를 사용한 GPT 계열 생성 모델이고, 가장 가벼운 것은 Word2Vec CBOW라고 언급했었습니다. 당연히 GPT 모델을 사용할 수 있으면 최고겠지만, 위의 두 조건을 달성할 수 없으니 현실과 타협하면서 모델 구조를 경량화해야했는데요, 오늘 포스팅에서는 경량화를 통해 도달하게 된..

프로그래밍/NLP 2025. 5. 11. 17:23

형태소 분석기 Kiwi CoNg (1/4): 신경망 모델 도입기

오랜만에 Kiwi 이야기를 들고 블로그로 돌아왔습니다. 최근에 Kiwi v0.21.0에 신경망 모델을 도입하면서 분석 정확도를 크게 향상시켰는데요, 그 시작부터 진행 과정, 결과까지를 함께 나눠보고자 이렇게 시리즈 포스팅을 작성하게 되었습니다. 길고 지루한 이야기가 될 수도 있지만 최대한 재미나게 구성해볼테니 마지막 편까지 "채널 고정" 해주시면 감사드리겠습니다~Kiwi CoNg 포스팅 시리즈형태소 분석기 Kiwi CoNg (1/4): 신경망 모델 도입기 형태소 분석기 Kiwi CoNg (2/4): CoNg 모델 소개형태소 분석기 Kiwi CoNg (3/4): 모델 성능 비교형태소 분석기 Kiwi CoNg (4/4): 모델 최적화 (조만간 공개됩니다)왜 신경망 모델인가?잘 돌아가고 있는 Kiwi에 갑자기..

프로그래밍/NLP 2025. 5. 4. 19:30

한국어 말뭉치를 통한 사이시옷 사용 실태 조사

헷갈리는 사이시옷사이시옷은 참으로 묘한 녀석입니다. 이름은 분명 사이"시옷"인데 ㅅ소리가 전혀 나지 않거든요. 사이시옷의 역할은 두 개의 명사가 합쳐져서 복합 명사가 되는 과정에서 뒤의 명사가 된소리화(ㄲ/ㄸ/ㅃ/ㅆ/ㅉ)되거나 ㄴ소리가 첨가되는 현상을 반영하기 위해서 명사 사이에 ㅅ을 적기로 약속한 것이기 때문입니다. 그래서 적기는 ㅅ으로 적더라도 실제로는 ㅅ 소리가 절대 나지 않습니다. ('숫자'는 [숫자]로 소리나는 것이 아니라 [수짜]로 소리나고, '깻잎'은 [깨십]으로 소리나는 것이 아니라 [깬닙]으로 소리납니다.)사실 발음보다 더 골이 아픈 문제는 사이시옷을 언제 써야하는지, 언제 쓰지 말아야하는지를 구분하는게 참 어렵다는 겁니다. 잘 모르는 복합명사를 받아적을 일이 생겨서, 그 명사에 사이시옷..

프로그래밍/NLP 2024. 11. 4. 02:20

LLM으로 게임 텍스트 번역해보기

게임 텍스트 번역이라는 과제에서 LLM이 가지는 장점바야흐로 LLM(Large Language Model)의 시대가 도래했고, 오픈소스 모델들이 속속들이 등장하면서 누구나 집 컴퓨터에서 딸각(과 코드 몇 백 줄을 작성)하면 텍스트 관련한 귀찮은 일들을 모두 AI한테 맡길수 있는 세상이 왔습니다. 나무가 충분히 자란것 같으니 이제는 슬슬 열매를 따먹어봐야할 시간이 온거지요.그래서 저는 그동안 머릿속으로 상상만하고 여력이 없어서 이루지 못한 일들을 AI발달에 힘입어 하나씩 이뤄나가보려고 하는데요, 첫번째 타겟은 게임 텍스트 자동 번역입니다. 자동 번역은 이미 충분히 발달된 분야가 아닌가 생각하실 수 있겠지만, 게임 텍스트 자동 번역은 생각보다 난이도가 있는 과제입니다.먼저 게임 내 세계관에서만 사용되는 고유..

프로그래밍/NLP 2024. 8. 31. 12:35

형태소 분석기의 모호성 해소 성능을 평가해보자

문제 상황 한국어 텍스트를 기계를 통해 분석하다 보면 기계가 아직 얼마나 한국어를 모르는지 다시 한 번 느끼게 됩니다. 한국인이 봤을땐 누가봐도 명백하게 모호하지 않은 문장을 헷갈려할 때가 바로 대표적인 예일겁니다. 규칙 활용하는 동사 "묻다"와 불규칙 활용하는 동사 "묻다", 또 규칙활용하는 "물다"는 그 활용형이 서로 겹칩니다. 아래 표로 정리하면 더 명확해지죠: 묻다 2 묻다 3 물다 1 뜻 물건을 특정 장소 속에 넣고 다른 물질로 위를 덮어서 가리다. 대답이나 설명을 요구하며 말하다. 어떤 것을 윗입술과 아랫입술 사이에 또는 윗니와 아랫니 사이에 끼워 넣고 벌어진 두 입술이나 이를 다물어 누르다. 예문 거름을 묻다, 시신을 묻다 견해를 묻다, 근황을 묻다 담배를 물다, 젖병을 물다 활용 묻어, 묻..

프로그래밍/NLP 2022. 3. 27. 01:11

[Kiwi] 문장 같은 고유명사 잘 추출해내기

고유명사 처리의 어려움 형태소 분석을 진행할 때 어려운 부분 중 하나는 고유명사(NNP) 처리입니다. 나머지 품사의 경우는 말뭉치를 잘 구축해두면 그 안에서 어지간한 패턴은 다 등장합니다만, 고유명사의 경우 그 특성상 끊임없이 새로 생성되기 때문에 아무리 말뭉치를 잘 구축해둬도 시간이 조금만 흐르면 새로 등장한 고유명사는 다 놓치게 됩니다. 그래서 대부분의 형태소 분석기는 사용자가 직접 사전 내에 새로운 단어를 삽입하여 이런 문제를 완화하고자 하지요. 새로 추가된 고유명사는 해당 문자열이 오분석되는 것을 막기 위해 대개 일반 분석 결과보다 더 높은 우선순위를 가지게 됩니다. 즉, 기존의 분석 결과를 새로 추가된 고유명사가 덮어쓴다고 할까요. 입력 분석결과 도전무한지식 도전/NNG 무한/NNG 지식/NNG..

프로그래밍/NLP 2022. 3. 20. 21:58

Kiwi로 한국어 문장 분리하기

우리의 생각이나 감정은 문장이라는 단위를 통해 표현됩니다. 문장은 여러 개의 단어로 이루어지며 주어와 술어를 갖춤으로써 그 자체로 완결된 의미를 드러냅니다. 그래서 텍스트를 분석할 때 문장을 최소 단위로 설정하면 유용한 경우가 많죠. 맞춤법에 맞춰 쓴 문장은 항상 마침표(. ! ?)로 끝나므로 이들을 분리하는 건 굉장히 쉬운 일입니다. 그러나 문제는 인터넷 상에서 접하는 텍스트처럼 격식을 덜 갖춘 글들이죠. 사람은 글을 읽어보고 어디서 문장이 끝나는지를 쉽게 알 수 있지만, 컴퓨터에게는 매우 난감한 문제입니다. 이번 포스팅에서는 Kiwi에 문장 분리 기능이 추가된 기념으로 문장 분리라는 과제에 대해 살펴보고, 현존하는 도구들의 정확도를 평가해보는 시간을 가지도록 하겠습니다. 문제 상황 전 애초에 한숨봇 ..

프로그래밍/NLP 2021. 12. 23. 02:05

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

블로그 이미지

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

댓글

태그

자연언어처리 텍스트 마이닝 php 영어구조론 토픽 모델링 한국고대경제와사회 라틴어 BigFloat NLP python Direct3D 우리역사바로알기대회 kiwi c++ 리듬게임 포니게임 정보조직론 pg어 문헌정보통계 악보

방문자

오늘
어제
전체

페이징

이전
1 2 3 4
다음
나의 큰 O는 log x야
메일 bab2min@gmail.com
Skin Images are from Stinkehund.

티스토리툴바