나의 큰 O는 log x야

고정 헤더 영역

글 제목

메뉴 레이어

나의 큰 O는 log x야

메뉴 리스트

  • 홈
  • Tag
  • Guestbook
  • Admin
  • 분류 전체보기
    • 적분史
    • 프로그래밍
      • PG어
      • 테크닉
      • 3D
      • Multi precision
      • 포니게임개발
      • 스페샬
      • NLP
    • 소리
    • 언어
      • 어원 이야기
      • 라틴어
    • 수업노트
      • 한국고대경제와사회
      • 영어구조론
      • 정보검색론
      • 인간의삶과역사속의미생물
      • 기타
    • 잉여
      • 미래
      • 수학
      • 종교개혁
    • 그냥 공부
    • 가짜 정보 정정합니다.

검색 레이어

나의 큰 O는 log x야

검색 영역

컨텐츠 검색

프로그래밍

  • [KIWI] 좋아, 형태소 분석기를 만들어봅시다. - 0

    2017.03.26 by ∫2tdt=t²+c

  • [Python] 네이버 영화 한줄평 크롤링 코드

    2017.03.17 by ∫2tdt=t²+c

  • [Python] Steam 게임평 크롤링 코드

    2017.03.17 by ∫2tdt=t²+c

  • [Python] 단어 간 상호정보량 계산 코드

    2017.02.14 by ∫2tdt=t²+c

  • CppCon 자료 링크

    2017.02.05 by ∫2tdt=t²+c

  • [C++] 한글 두벌식 자판에서의 편집거리

    2016.12.26 by ∫2tdt=t²+c

  • 단어 클러스터링 프로그램 Civciv 개발기 - 편집거리와 클러스터링 알고리즘

    2016.12.17 by ∫2tdt=t²+c

  • PHP로 짠 형태소 분석기 프로그램을 C++로 고친 이야기

    2016.11.14 by ∫2tdt=t²+c

[KIWI] 좋아, 형태소 분석기를 만들어봅시다. - 0

2월 말부터 갑자기 시작한 일이 있는데, 한국어 형태소 분석기를 직접 만들어 보는 일이었습니다. 처음에는 과연 할 수 있을까 싶기도 해서 블로그에 기록을 안 남기고 조용히 진행하고 있었습니다. 근데 기록을 남기지 않으니 시간이 갈 수록 헤매게 되는거 같아서 어느 정도 틀이 잡힌 시점에서 차곡차곡 기록을 남겨가며 프로젝트를 진행하기로 결심했습니다. (이미지 출처: http://akarui-japan.deviantart.com/art/Kiwi-Icon-100334949) 뜬금없이 왜 형태소 분석기를..?형태소 분석기를 만드는 삽질을 하게 된 이유를 구구절절히 풀자면 길어질거 같아서 짧게 정리하도록 할게요. 시작은 작년 초에 만들었던 KorpuSQL(http://bab2min.tistory.com/473) 이..

프로그래밍/NLP 2017. 3. 26. 21:55

[Python] 네이버 영화 한줄평 크롤링 코드

스팀 게임평이 양이 적어서 감성사전을 구축하기 어렵다고 판단하여 네이버 영화 평점을 수집하는 일을 수행했었는데요, 이 역시 수집만 하고 다음 단계로 넘어가지 않았기에 방치해두기 아까운 코드, 공유해드립니다. 앞의 글과 마찬가지로 Python3로 작성되었으며, 실행을 위해서 BeautifulSoup 라이브러리가 필요합니다.import urllib import urllib.request import urllib.parse import bs4 import re import os import time from concurrent.futures import ThreadPoolExecutor def deleteTag(x): return re.sub("]*>", "", x) def getComments(code): ..

프로그래밍 2017. 3. 17. 01:03

[Python] Steam 게임평 크롤링 코드

작년에 게임과 관련된 한국어 감성분석 사전을 만들어볼까 하는 생각에 Steam에 등록된 한국어 게임평들을 모두 긁어온 적이 있었는데요, 결론부터 밝히자면 그 수가 적어서 유의미한 분석을 할 수는 없었습니다. 그래서 당분간 묵혀두었는데, 기껏 짜놓은 코드 하드 속에서 용량만 차지하게 냅두느니, 먼지 털고 올려두면 누군가에게 도움이 될 수 있지 않을까 하는 생각에 공유하기로 마음 먹었습니다. Python3 기반의 코드이고, 간단하므로 크게 설명할 건덕지는 없을듯합니다. BeautifulSoup 라이브러리가 필요합니다. import urllib import urllib.request import urllib.parse import bs4 import re import os from concurrent.futu..

프로그래밍 2017. 3. 17. 00:56

[Python] 단어 간 상호정보량 계산 코드

관련어를 추출하는데에 있어서 점별 상호정보량(http://bab2min.tistory.com/546)만큼 간단하면서도 훌륭한 방법은 많지 않습니다. 그래서 관련어 추출 방법들을 비교할 때 있어서 기준치로 쓰이기에 좋지요. 그래서 여기 저기 코드에서 상호정보량 계산 클래스를 자주 만들어 쓰다보니깐, 하나로 잘 만들어놔서 두고두고 재활용해야겠다는 생각이 들었습니다. 간결하면서도 아름다운 파이썬 코-드 class PMICalc: def __init__(self, **kargs): self.window = kargs.get('window', 5) self.minNum = kargs.get('minNum', 5) self.dictCount = {} self.dictBiCount = {} self.searchPai..

프로그래밍 2017. 2. 14. 18:12

CppCon 자료 링크

C++ 컨퍼런스라는게 있는줄도 몰랐는데, 2014년부터 모던 C++ 애호가(?)들을 위한 컨퍼런스가 매년 개최되고 있었더군요. 한동안 C++로부터 관심이 멀어져있었는데, 컨퍼런스 내용을 보니 C++사랑이 듬뿍듬뿍 솟아오르는 것 같은 느낌입니다. 컨퍼런스 홈페이지는 https://cppcon.org/ 이고, 컨퍼런스 자료들은 모두 GitHub에 친절하게 올라가 있더라구요. 16년도 컨퍼런스 프레젠테이션들을 조금 살펴봤는데, 모던 C++의 발전 방향과 활용, 유용한 테크닉 등 여러 방면에 대해 다루고 있어서, C++를 공부하는 사람이라면 정말 많은 것을 배워갈 수 있을 거 같네요. 시간이 없어 다 읽어보지는 못했지만, 틈틈히 읽어보려고 합니다. 끝.

프로그래밍 2017. 2. 5. 15:38

[C++] 한글 두벌식 자판에서의 편집거리

일반 편집거리 알고리즘은 한글에 부적합하다두 텍스트가 얼마나 유사한지를 판단하는데 편집거리 알고리즘이 널리 쓰입니다. 주어진 텍스트 A가 B로 바뀌기 위해서는 글자를 몇번 빼고 더하고 바꿔야하는지를 세는 방법인데요, 이미 이를 효율적으로 계산하는 코드들이 인터넷 상에 많지요. 다만 한글에 이를 그대로 적용하는데에는 애로사항이 있습니다. 로마자 알파벳은 입력하기 위해 사람이 누르는 자판과 실제 입력되는 글자가 같은 반면, 한글은 그렇지 않다는 것이지요. 한글을 입력하는데에는 대게 두벌식 자판을 이용해 자음/모음을 따로 입력하고, 이를 입력기에 합쳐서 글자를 만들어내는 과정을 거치게 됩니다. 따라서 "갔다"와 "갓다"는 실제로 Shift키 하나 차이나는 텍스트임에도 불구하고 실제 입력된 결과물은 전체 글자인..

프로그래밍 2016. 12. 26. 03:25

단어 클러스터링 프로그램 Civciv 개발기 - 편집거리와 클러스터링 알고리즘

발단외국 나가있는 아는 후-배가 하는 프로젝트가 하나 있다는데, 거기서 하는 일이 근대 사람의 일기 자료를 분석하는 일이랍니다. "아 재미있는 일을 하는구나!" 하고선 넘어가려했는데, 일기가 사람이 쓰는것이다보니 철자오류도 잦고, 같은 대상을 이형태로 기록해두는 경우가 많아서 그걸 일일히 찾아내는게 귀찮다는 이야기를 들었습니다.예를 들자면, Arab을 Ahrab이라 적는다던가 Arahb이라 쓴다던지 하는 철자 실수에서부터, America를 쓰다가 오타를 내서 Amecira라고 쓰는 경우도 있다는 거지요. 문제는 이렇게 철자 한 두개가 달라버리면, 단순히 검색하는 방식으로는 해당 단어가 어디서 얼마나 나타나는지를 통계내기가 곤란해진다는 거죠. 그래서 그동안 이런걸 찾는 작업을 사람이 수작업으로 했다는 겁니..

프로그래밍 2016. 12. 17. 19:09

PHP로 짠 형태소 분석기 프로그램을 C++로 고친 이야기

몇 개월 전에 살아있는 라틴어 홈페이지에 형태소 분석기 서비스가 추가되었습니다. 원리는 뭐 복잡한거 없이 지금까지 구축한 라틴어 코퍼스에서 격별, 성별, 수별 전이확률(어떤 격 뒤에는 어떤 격이 올 확률이 높은가, 어떤 동사 주변에는 어떤 격이 올 확률이 높은가, 어떤 전치사 뒤에는 어떤 격이 올 확률이 높은가 등)을 조건부 확률 계산식을 이용해서 계산하는 겁니다. 그래서 가장 확률 높은 성/수/격 요소를 추천해주는 거죠.코드가 복잡하지 않다고 생각해서 그 때 PHP로 약 340줄 코딩해서 형태소 분석기를 작성했었습니다. (각 상태별 전이확률은 MariaDB에 저장되어있고, 쿼리를 날려서 가져오는 형태)문제는 이렇게 후딱 코딩을 끝내고 나니 1. 굉장히 느리고, 2. 굉장히 메모리를 많이 먹었습니다. 약..

프로그래밍 2016. 11. 14. 03:23

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

블로그 이미지

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

댓글

태그

python 악보 NLP 라틴어 kiwi 포니게임 BigFloat c++ 한국고대경제와사회 pg어 자연언어처리 Direct3D 정보조직론 문헌정보통계 우리역사바로알기대회 영어구조론 토픽 모델링 텍스트 마이닝 php 리듬게임

방문자

오늘
어제
전체

페이징

이전
1 ··· 5 6 7 8 9 10 11 ··· 28
다음
나의 큰 O는 log x야
메일 bab2min@gmail.com
Skin Images are from Stinkehund.

티스토리툴바