업무 자동화 솔루션에 대해서 알아보기 시작하면서 그 동안은 접해보지 못했던 용어들을 접하게 되어 간단히 정리 해 둡니다. 물론 이러한 용어들을 다시 볼 일이 없을 수 있지만 (특정한 절차나 과정이 기록된 것이 아니므로) 새로운 것을 알게 되었을 때 정리해 둘 필요는 있을 것 같아 정리합니다.

 

간단한 사전적 의미와 용어 뿐 아니라 몇몇 찾아본 정보를 추가로 정리하고자 합니다.

 

 

1. 정의

 

 

OCR Optical Character Recognition의 약자로, 한국말로 바꾸면 광학식 문자 판독입니다. 이게 컴퓨터 비전이라고 부르는 기술과는 또 어떤 상관관계가 있는지 궁금 해 졌습니다.

 

 

출처 : https://namu.wiki/w/OCR

 

OCR - 나무위키

이 저작물은 CC BY-NC-SA 2.0 KR에 따라 이용할 수 있습니다. (단, 라이선스가 명시된 일부 문서 및 삽화 제외) 기여하신 문서의 저작권은 각 기여자에게 있으며, 각 기여자는 기여하신 부분의 저작권을 갖습니다. 나무위키는 백과사전이 아니며 검증되지 않았거나, 편향적이거나, 잘못된 서술이 있을 수 있습니다. 나무위키는 위키위키입니다. 여러분이 직접 문서를 고칠 수 있으며, 다른 사람의 의견을 원할 경우 직접 토론을 발제할 수 있습니다.

namu.wiki

 

 

 

2. 용도

 

 

주 용도는 이미지로 되어있는 Text Data를 빠르고 간편하게 디지털 데이터로 전환하는 것입니다.

이미지나 Text로 접근되지 않는 문자를 확인하여 Text로, 복사가 가능한 문자열로 만들어줍니다.

 

 

 

3. 현황

 

 

2020년 2월 현재는 네이버를 비롯한 몇몇 업체의 서비스가 있습니다.

 

아래는 네이버사의 클라우드 플렛폼 일환으로 최근 베타서비스를 종료하고 유료화 서비스로 전환한 OCR 서비스입니다.

 

https://www.ncloud.com/product/aiService/ocr

 

NAVER CLOUD PLATFORM

cloud computing services for corporations, IaaS, PaaS, SaaS, with Global region and Security Technology Certification

www.ncloud.com

 

네이버의 서비스는 OCR의 기본이라고 할 수 있는 이미지 내의 글자 탐지뿐 아니라 템플릿에 맞게 값을 전달하고, 추출된 값을 검증하는 기능이 들어가 있다고 합니다. 우선 저의 경우에는 UiPath Studio의 OCR을 몇가지 사용 해 봤는데 언어 선택의 차이에 따라 한글인 경우 영문이 잘 인식이 되지 않으며, 영문으로 되어있는 경우에는 아예 한글은 읽어올 수 없다는 것을 확인할 수 있었습니다.

 

 

그리고 Wiki에 나와있던 내용이지만 한줄로 알파벳을 옆으로만 이어쓰는 영문자의 경우에는 인식률이 상당히 높지만 한글과 같이 자음 모음에 밭침여부에 따라 모양이 달라지거나 한자같은 경우도 인식이 잘 되지 않는 편이라고 하며, 한글의 경우에는 가장 인식이 안되는 것이 "~에 관하여"를 자꾸 "~에 판하여"로 읽어온다고 합니다. 일본어의 경우에도 제가 일어를 잘 모르는 편이지만 2자가 쓰는 방식이 거의 똑같은 2자를 구분을 잘 하지 못한다고 합니다.

 

 

한글로 다시 돌아가면 의외로 요즘(?) 종종 쓰는 대머리머머리로 읽거나 하는 경우는 드물다고 합니다. 

+ Recent posts