나의 큰 O는 log x야

고정 헤더 영역

글 제목

메뉴 레이어

나의 큰 O는 log x야

메뉴 리스트

  • 홈
  • Tag
  • Guestbook
  • Admin
  • 분류 전체보기
    • 적분史
    • 프로그래밍
      • PG어
      • 테크닉
      • 3D
      • Multi precision
      • 포니게임개발
      • 스페샬
      • NLP
    • 소리
    • 언어
      • 어원 이야기
      • 라틴어
    • 수업노트
      • 한국고대경제와사회
      • 영어구조론
      • 정보검색론
      • 인간의삶과역사속의미생물
      • 기타
    • 잉여
      • 미래
      • 수학
      • 종교개혁
    • 그냥 공부
    • 가짜 정보 정정합니다.

검색 레이어

나의 큰 O는 log x야

검색 영역

컨텐츠 검색

국어정보학

  • 빈도분석 프로그램 Counter

    2013.10.15 by ∫2tdt=t²+c

  • [국어정보학] 코퍼스를 구축하여 빈도분석하는 방법

    2013.10.15 by ∫2tdt=t²+c

  • [국어정보학] 한글2007과 한글2010의 옛 한글 처리방식 차이(수업 내용은 아니지만...)

    2013.09.12 by ∫2tdt=t²+c

빈도분석 프로그램 Counter

국어정보학 수업시간에 받은 counter 프로그램을 확장해서문맥주석코퍼스에서 연어의 빈도를 조사할수있는 기능까지 포함한 프로그람을 개발해봤어요.단순 카운팅이니깐 코딩이 엄청 어려운것도 아니라서 어제 새벽 몇 시간 동안 짰더니 완성됐네요. CounterPP.exe CounterPP_XP.exe (XP유저는 CounterPP_XP.exe를, 비스타 이상 유저는 CounterPP.exe 를 쓰시면 됩니다.) 사용방법은 counter와 유사합니다.명령행 인수로 실행할 수도 있고, 아니면 프로그램을 단독으로 실행해서 작동시킬 수도 있어요. 프로그램의 기능:-CSV(탭으로 필드가 구분되고, 줄바꿈으로 행이 구분되는 텍스트 파일)을 입력으로 받아서, 조건에 일치하는 행을 찾아냅니다.-찾아낸 행에서 특정한 필드를 선택..

프로그래밍 2013. 10. 15. 23:30

[국어정보학] 코퍼스를 구축하여 빈도분석하는 방법

국어학에서 컴퓨터를 유용하게 사용하는 방법은 바로 방대한 데이터를 잘 짜여진 프로그램으로 처리하여 여러가지 결과물을 도출해 내는것이지요. 개강 후 한 달 반 동안 여러가지 프로그램을 배우며 코퍼스를 구축하는 방법을 간단하게 공부했었는데, 짬을 내어 정리해봅니다. 1. 제일 먼저 수집할 것은 텍스트입니다. 어떤 코퍼스를 구축할지에 따라 '구어 텍스트', '뉴스 텍스트', '라디오 텍스트', '가을동화 텍스트' 등등을 모을 수 있겠죠. 이렇게 수집된 텍스트들을 '원시 말뭉치'라고 부릅니다. 2. 두번째로 필요한 작업은 '원시말뭉치'를 형태소분석하여 태깅하는 것입니다. 한국어와 같은 경우 동음이의어가 많고 단어의 굴절이 복잡하기에 형태소를 분석하지 않고 단순히 빈도분석을 한다면 잘못된 결과가 나올수 있지요. ..

수업노트 2013. 10. 15. 02:17

[국어정보학] 한글2007과 한글2010의 옛 한글 처리방식 차이(수업 내용은 아니지만...)

한영균 선생님의 국어정보학 수업. 부득이하게 '자료전산처리방법론'과 같은 내용으로 수업하게되었다고 EditPlus를 이용하여 자료를 처리하는데, 폰트를 잘 설정하면 옛 한글도 처리할 수 있다고EditPlus에서 글꼴을 '한컴바탕'으로 설정하면 옛 한글도 나타나게 되는데, 문제는 한글2010에서 옛 한글을 복사해올 경우 옛 한글이 분리되어서 나타난다는거. 교수님은 한글2010이 버그가 있다면서 까셨고, 한글2007에서는 그런 문제가 발생하지 않으니, 한글2007을 다른 경로에 설치해서 사용하라고 하셨다. 집에 와서 확인해봤는데, 한글2007까지는 옛 한글을 예전에 마이크로소프트가 밀어주던 한양PUA 방식으로 인코딩했었지만,한글2010으로 오면서 유니코드 표준인 첫가끝 방식으로 인코딩 방법을 바꿨다는것이다...

수업노트/기타 2013. 9. 12. 16:38

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

블로그 이미지

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

댓글

태그

정보조직론 NLP kiwi 포니게임 c++ 자연언어처리 Direct3D pg어 텍스트 마이닝 토픽 모델링 악보 리듬게임 python php 우리역사바로알기대회 문헌정보통계 BigFloat 라틴어 영어구조론 한국고대경제와사회

방문자

오늘
어제
전체

페이징

이전
1
다음
나의 큰 O는 log x야
메일 bab2min@gmail.com
Skin Images are from Stinkehund.

티스토리툴바