Post

Tesseract

1. Tesseract

tesseract

테서랙트(Tesseract)는 다양한 운영 체제를 위한 광학 문자 인식 엔진이다. 이 소프트웨어는 Apache License, 버전 2.0에 따라 배포되는 무료 소프트웨어이며 2006년부터 Google에서 개발을 후원했다.

2006년 테서랙트는 당시 가장 정확한 오픈 소스 OCR 엔진 중 하나로 간주하였다.

2. 특징

테서랙트는 1995년 문자 정확도 측면에서 3대 OCR 엔진에 속했다. Linux, Windows 및 Mac OS X에서 사용할 수 있다. 그러나 제한된 리소스로 인해 Windows 및 Ubuntu에서 개발자가 엄격하게 테스트한다.

버전 2 이하의 테서랙트는 간단한 단일 열 텍스트의 TIFF 이미지만 입력으로 허용할 수 있었다. 이 초기 버전에는 레이아웃 분석이 포함되지 않았으므로 여러 열로 된 텍스트, 이미지 또는 방정식을 입력하면 왜곡된 출력이 만들어졌다. 버전 3.00부터 테서랙트는 출력 텍스트 형식, hOCR 위치 정보 및 페이지 레이아웃 분석을 지원했다. Leptonica 라이브러리를 사용하여 여러 가지 새로운 이미지 형식에 대한 지원이 추가되었다. Tesseract는 텍스트가 단일 간격인지 또는 비례 간격인지 감지할 수 있다.

테서랙트는 백엔드로 사용하기에 적합하며 OCRopus와 같은 프론트엔드를 사용하여 레이아웃 분석을 포함하여 더욱 복잡한 OCR 작업에 사용할 수 있다.

입력 이미지가 이미지에 맞게 사전 처리되지 않은 경우 테서랙트의 출력 품질이 매우 떨어진다. 텍스트의 x-높이가 20픽셀 이상이 되도록 이미지(특히 스크린 샷 )의 크기를 조정해야 한다. 회전 또는 기울어짐을 수정해야 한다. 또는 텍스트가 인식되지 않거나, 저주파수의 밝기 변화가 고역 필터링 되어야 하거나, 테서랙트의 이진화 단계가 많은 페이지를 파괴하고, 어두운 테두리를 수동으로 제거해야 한다. 그렇지 않으면 문자로 잘못 해석된다.

[출처 및 참고]

This post is licensed under CC BY 4.0 by the author.