고문헌의 textualis로 쓰인 글자를 인식하기 위해서 사용한 신경망입니다. https://medium.com/@akashg/character-recognition-using-tensorflow-a93dbbdf4af 코드를 참고하여 작성하였구요, tensorflow와 scikit-learn이 설치되어 있어야 작동합니다.
신경망의 구조는 다음과 같습니다.
INPUT (크기: nImgSize * nImgSize)
↓ activation: sigmoid
LAYER1 (크기: layer1)
↓ activation: sigmoid
LAYER2 (크기: layer2)
↓ activation: softmax
OUTPUT (크기: nClasses)
고문헌 라틴어를 인식하는 작업에 imgSize = 32, layer1 = 800, layer2 = 200로 설정하고, 총 100여가지의 문자를 분류해보았는데, 약 91%의 정확도를 보였습니다.
Tensorflow는 정말 간단하면서도 강력한 도구인듯합니다. 이렇게 간단하게 문자인식을 할수 있다니, 확실히 요즘 대세가 되는 이유가 있군요.
[Python] tomotopy로 쉽게 토픽 모델링 실시하기 (59) | 2019.05.22 |
---|---|
Python용 토픽 모델링 패키지 - tomotopy 개발 (12) | 2019.05.19 |
[Kiwi] 지능형 한국어 형태소 분석기 0.6버전 업데이트 (1) | 2018.12.09 |
AdaGram : 동음이의어를 구분하는 Word2Vec (1) | 2018.09.23 |
Word2Vec을 이용한 한국어 관련어 네트워크 보기 (0) | 2018.09.17 |
Kneser-Ney 언어 모형을 활용한 한국어 초성체 해석기 개발 (0) | 2018.06.17 |
댓글 영역