상세 컨텐츠

본문 제목

[국어정보학] 한글2007과 한글2010의 옛 한글 처리방식 차이(수업 내용은 아니지만...)

수업노트/기타

by 적분 ∫2tdt=t²+c 2013. 9. 12. 16:38

본문



한영균 선생님의 국어정보학 수업. 

부득이하게 '자료전산처리방법론'과 같은 내용으로 수업하게되었다고


EditPlus를 이용하여 자료를 처리하는데, 폰트를 잘 설정하면 옛 한글도 처리할 수 있다고

EditPlus에서 글꼴을 '한컴바탕'으로 설정하면 옛 한글도 나타나게 되는데, 문제는 한글2010에서 옛 한글을 복사해올 경우 옛 한글이 분리되어서 나타난다는거. 교수님은 한글2010이 버그가 있다면서 까셨고, 한글2007에서는 그런 문제가 발생하지 않으니, 한글2007을 다른 경로에 설치해서 사용하라고 하셨다.


집에 와서 확인해봤는데,


한글2007까지는 옛 한글을 예전에 마이크로소프트가 밀어주던 한양PUA 방식으로 인코딩했었지만,

한글2010으로 오면서 유니코드 표준인 첫가끝 방식으로 인코딩 방법을 바꿨다는것이다.


한양PUA는 Private User Area에 옛 한글을 대응하여 사용하던 방법인데, PUA에 모든 옛한글이 들어가지도 않았기에 코딩방식이 약간 난잡해질수 밖에 없었다는거. 게다가 유니코드 표준도 아니니, 글로벌하게 사용하기엔 문제가 좀 있었나보다.

반면 첫가끝 방식은 옛 한글의 초성 중성 종성을 각각 문자로 표현하고 이 세 문자 앞에 이 문자들이 첫가끝 문자임을 알려주는 헤더를 넣어 총 4글자로 옛한글을 표현한다. 유니코드 표준 방식이지만, 문자열 처리시에는 옛 한글 한 음절이 4글자가 되므로 불편한 점이 많다고


대부분의 옛 한글 문서는 한양PUA 방식으로 작성되어 있고, 교수님께서도 한양PUA방식을 쓰셨던거다. 그래서 한글 2010에서 첫가끝으로 인코딩된 옛 한글을 복사해오면 옛 한글이 깨질수 밖에


교수님께서는 옛 한글 깨지게 작업해서 과제 제출하면 빵점처리한다고 한글2007 깔라고 강요하셨는데, 왠지 그런 삽질 말고 인코딩 방식을 바꿔주는 유틸이 있을거 같아서 찾아봤는데


역시나 있다! 야호


날개셋 입력기를 설치하면 됩니다!

http://moogi.new21.org/prg4.html

여기서 설치하면 되고, 이거를 설치하면 [날개셋 변환기]도 덤으로 설치됩니다. 이 [날개셋 변환기]를 이용하면 한글2010의 옛한글을 한글2007의 옛한글 인코딩 방식으로 변환가능하죠.


1. 한글 2010에서 옛한글을 입력합니다. 그리고 클립보드에 복사!


2. 날개셋 변환기를 실행하고 원본형식, 대상형식을 다음과 같이 세팅

3. 클립보드 변환을 누르면 끝. (누르면 클립보드만 교체되고 다른 일은 일어나지 않아요. 그게 정상입니다.)


4. 이제 메모장이나 EditPlus에 붙여넣기하면 한글2007에서 옛한글을 붙여넣은것과 같은 결과가 나옵니다.



좋다.



근데 개인적으로 EditPlus보다는 Notepad 가 정규식 지원면에서나 가격면에서나 나은거같다.

관련글 더보기

댓글 영역

  • 프로필 사진
    2013.11.11 03:54
    지나가다 잘못된 정보가 보여서 댓글 남깁니다.

    반면 첫가끝 방식은 옛 한글의 초성 중성 종성을 각각 문자로 표현하고 이 세 문자 앞에 이 문자들이 첫가끝 문자임을 알려주는 헤더를 넣어 총 4글자로 옛한글을 표현한다. 유니코드 표준 방식이지만, 문자열 처리시에는 옛 한글 한 음절이 4글자가 되므로 불편한 점이 많다고
    → 1비트(1바이트 아님) 헤더를 넣는 건 1990년대쯤에 쓰였던 상용 조합형입니다. 유니코드 첫가끝은 헤더를 넣지 않고 초성 + 중성 (+ 종성)만으로 해결합니다(예: ᄒᆞᆫ U+1112 U+119E U+11AB). 그리고 옛한글 한 글자가 두세 문자로 표현되는 건 불편하지 않고, 요즘은 1바이트 하나에 연연하는 시대가 아니니 용량 걱정할 필요도 없습니다.

    또한 PUA를 이용한 정보 교환은 문제가 심각하기 때문에, PUA의 사용은 최대한 피하는 것이 좋죠. 여태까지 다들 옛한글 처리에 PUA를 사용해 온 게 잘못된 거죠.

    그리고 한국텍학회가 함초롬체에 GSUB 정보를 넣은 함초롬바탕 LVT, 함초롬돋움 LVT가 있습니다. 이걸 설치해서 적용하면 한/글 2010 외부에서도 옛한글을 깨지지 않게 출력할 수 있습니다.
    설명 문서: http://wiki.ktug.org/wiki/wiki.php/%ED%95%A8%EC%B4%88%EB%A1%AC%EC%B2%B4LVT
    바로 받기: http://ftp.ktug.org/KTUG/hcr-lvt/Hamchorom-LVT.zip
    • 프로필 사진
      2013.11.11 13:45 신고
      좋은정보 감사합니다!
    • 프로필 사진
      2020.01.28 18:44
      제 생각엔 본문에서 언급된 건 상용조합형이 아니라 완성형 같습니다. 완성형(KS X 1001)에서는 완성형 2350자에 들지 않는 음절(글자마디)에 대해서 '채움문자+초성+중성+종성', 또는 '채움문자+초성+중성+채움문자'의 방법으로 입력하도록 정해 놨는데, 여기서 채움문자와 각 낱자들이 2바이트(비트 아님)씩 차지하므로 완성된 음절은 8바이트(즉 '2바이트=1글자' 기준으로 4글자)가 됩니다. '첫가끝'이라고 하면 유니코드 방식이랑 혼동의 소지가 있겠네요. 이것도 실제로 첫가끝이라고 부르나요?
  • 프로필 사진
    2014.08.19 23:03
    비밀댓글입니다
  • 프로필 사진
    2014.10.23 14:41
    이 문제 때문에 정말 고민했는데 이런 방법이 있었군요! 감사합니다. 잘 써보겠습니다!