Post

광학 문자 인식

1. 광학 문자 인식이란

ocr

광학 문자 인식(Optical character recognition; OCR)은 사람이 쓰거나 기계로 인쇄한 문자의 영상을 이미지 스캐너로 획득하여 기계가 읽을 수 있는 문자로 변환하는 것이다.

이미지 스캔으로 얻을 수 있는 문서의 활자 영상을 컴퓨터가 편집 가능한 문자 코드 등의 형식으로 변환하는 소프트웨어로써 일반적으로 OCR이라고 하며, OCR은 인공지능이나 기계 시각(machine vision)의 연구 분야로 시작되었다.

거울이나 렌즈 등의 광학 기술을 이용한 광학 문자 인식과 스캐너 및 알고리즘에 의한 디지털 문자 인식은 다른 영역으로 생각되었으나 이제는 광학 문자 인식이라는 말이 디지털 문자 인식을 포함하는 것으로 간주하였다.

초기 시스템은 특정한 서체를 읽기 위해 미리 해당 서체의 샘플을 읽는 것을 뜻하는 “트레이닝”이 필요했지만, 지금은 대부분의 서체를 높은 확률로 변환이 가능하다. 몇몇 시스템에서는 읽어 들인 이미지에서 그것과 거의 일치하는 워드 프로세서 파일과 같은 문서 포맷으로 된 출력 파일을 생성할 수 있으며, 그중에는 이미지처럼 문서 이외의 부분이 포함되어있어도 제대로 인식하는 것도 있다.

2. 역사

OCR의 역사는 우리의 생각보다 길다. OCR의 역사는 1928년에 독일의 G. Taushek가 미리 준비된 몇 개의 표준 pattern 문자와 입력 문자를 비교하여 표준 pattern 문자와 가장 유사한 것을 해당 문자로 선정하는 pattern matching 기법을 이용한 문자 인식 방법을 특허로 등록하면서 시작되었다.

연구소나 기업 등에서 대형 컴퓨터를 통하여 수행되던 것이 PC와 이미지 스캐너의 보급으로 우리 가까이 사용되기 시작한 것은 이미 20년이 넘었다.

해외에서 먼저 연구가 시작된 OCR 기술은 영어 인식을 위주로 개발되었으며, 우리나라에는 90년대 초반에 한글 문자 인식 소프트웨어가 실험실 수준으로 개발되어 일반에 소개되었었다.

연산 처리 능력이 뛰어난 워크스테이션급에서 동작하던 것들이 개인용 컴퓨터의 처리 능력이 업그레이드되면서 PC용 OCR들이 시장에 속속 나타나던 것이 90년대 중반이었다.

최근 네이버 Clova에서 OCR 서비스를 오픈했으며, 네이버 클라우드 플랫폼 콘솔에서 Gateway API를 통해 이용할 수 있다.

OCR 챌린지인 ‘ICDAR Robust Reading Competition’에서 ‘19년 4개 분야를 석권, 정확도와 기술력을 인정받았다고 한다.

[출처 및 참고]

This post is licensed under CC BY 4.0 by the author.