python PyOCR 일본어 문자 인식 프로그램 작성 TextBuilder

python post logo 파이썬

pyocr.builders.TextBuilder를 사용해서 문자 인식(tool.image_to_string) 한 결과는 문자열로 인식한 문자를 포함하고 있습니다. 이 글에서는 TextBuilder의 이해를 돕기 위해 간단한 샘플 프로그램을 작성, 시연해 보겠습니다.

Tesseract 설치하기, PyOCR 설치하기는 이전 글 python PyOCR 문자 인식 프로그램 작성 DigitBuilder를 참조 하십시오.

샘플 프로그램 작성

일본어 문자 인식 프로그램을 테스트하기 위한 오른쪽 이미지를 test_jpn.png이름으로 로컬 드라이브 (예:C:¥testocr¥test_jpn.png)에 저장합니다.

다음 소스를 드라이브 (예:C:¥testocr¥testocr_jpn_text.py)에 저장합니다.

소스 내용 설명

  • 10-11행 : testocr_jpn_text.py가 저장되어있는 디렉토리를 현재 작업 디렉토리로 변경합니다. 자세한 설명은 python 프로그램 .py파일 경로로 현재 작업 디렉토리 변경하기를 참조 하십시오
  • 13-15행 : “C:\\Program Files\\Tesseract-OCR”가 시스템 환경 변수 %PATH%에 등록되어 있지 않다면 추가 합니다.
  • 17-22행 : Tesseract-ocr의 설치에서 문제가 발생했거나 시스템 환경 변수 %PATH%에 설치 경로가 추가 되어있지 않았다면 “OCR tool is not found in path(Tesseract-ocr의 설치 경로)” 메시지를 출력하고 프로그램이 에러 종료됩니다. 그렇지 않다면 OCR tool을 취득해 다음으로 진행합니다.
  • 24-30행 : test_jpn.png 이미지 파일을 읽고 TextBuilder(문자열 인식)를 사용해 ‘jpn’ 문자로 변환합니다.
  • 32행 : 문자 인식으로 취득한 결과를 화면에 출력합니다.
  • 33행 : “Please Enter to Exit” 메시지를 화면에 출력하면서 Enter키 입력을 기다립니다.

실행 및 결과 확인

다음과 같이 python 또는 py 명령을 실행하여 그 결과를 화면에 출력합니다. 물론 100%의 인식율은 기대하기 어렵습니다.

C:¥testocr>python testocr_jpn_text.py
この度の新型コロナウイルスの影響による居酒屋
しのや店舗休業におきましては、お客様をはじめと
します関係各所の皆様にはご迷惑をお掛け致してお
り ます。 大変申し訳ございません。

休業期間につきましては4月1 9日(日)までとご
案内させて頂いておりましたが、政府による緊急事
態宣言の発表を受けまして、5月 6 日(水)まで休業
期間延長の対応を取らせて頂く事に致しました。
何卒ご理解賜りますようお願い申し上げます。
Please Enter to Exit
제목과 URL을 복사했습니다