[Python] 호환용 한자를 통합 한자로 변환하기
한때 국내를 평정했던 한국어 문자 인코딩 규격인 KS X 1001에는 정말 많고 많은 문제가 있습니다... 다행히도 유니코드의 등장으로 레거시 시스템을 제외하고는 대부분 문자 인코딩 셋이 유니코드로 대통일되고 있는 상황이지만, 아직도 그 잔재가 끼치는 악영향은 이루 말할 수 없죠.. 대표적인 문제 중 하나는 같은 한자인데 발음이 다르다는 이유로 문자 코드에 중복 배당을 하여, 모양은 같지만 코드 상으로는 다른 글자가 수없이 생겨났다는 겁니다. 이 문제의 자세한 정보에 대해서는 나무위키 문서를 참조하시면 좋을 듯 합니다. 현재 유니코드에는 통합 한자와 호환용 한자라는 두 종류의 한자가 배당되어 있습니다. 통합 한자는 말 그대로 모양이 같은(거의 유사한) 한자들은 같은 코드로 합친 영역을 말하며, 호환용 한..
프로그래밍
2018. 10. 28. 23:10