更新於 2022/03/01閱讀時間約 5 分鐘

Tesseract OCR - 繁體中文【簡易識別篇】

GitHub
Tesseract OCRtesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository) (github.com)
Tesseract User ManualTesseract User Manual | tessdoc (tesseract-ocr.github.io)
How to train LSTM Tesseracttessdoc/TrainingTesseract-5.md at main ·tesseract-ocr/tessdoc (github.com)
  • 作業系統:win10
  • 版本訊息-命令提示字元(CMD)
C:\Users\user>tesseract --version
tesseract v5.0.1.20220118
leptonica-1.78.0
libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.3) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0
Found AVX2
Found AVX
Found FMA
Found SSE4.1
Found libarchive 3.5.0 zlib/1.2.11 liblzma/5.2.3 bz2lib/1.0.6 liblz4/1.7.5 libzstd/1.4.5
Found libcurl/7.77.0-DEV Schannel zlib/1.2.11 zstd/1.4.5 libidn2/2.0.4 nghttp2/1.31.

一、簡單OCR識別

tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]
1、開啟命令提示字元(cmd),進入到要識別的圖片的路徑下
cd 圖片路徑
2、tesseract 【預識別圖片之名稱】【生成的結果文件的名稱】-l【字庫】 
  • -l :選擇輸入語言/ 預設是英文 default “eng”
tesseract test.jpg result -l chi_tra 
3、產生result.txt文件

二、使用一種語言

-l LANG
  • LANG是三個英文字母組成的代表各種語言
  • 可以在命令提示字元輸入tesseract --list-langs來查看目前有什麼語言可以選擇

三、使用多種語言

-l LANG[+LANG]
  • 舉例(繁體中文+英文):tesseract test.jpg result -l chi_tra+eng
  • 根據語言的順序,輸出可能會有所不同例如:chi_tra+eng 和 eng+chi_tra

tesseract使用方式

Usage
命令提示字元(cmd):
tesseract --help
tesseract --help-extra
tesseract --version
tesseract --list-langs
  • tesseract imagename outputbase[-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]

使用不同的頁面分割模式

Page segmentation modes
tesseract test.jpg result -psm 6 -l chi_tra
0 僅限方向和腳本檢測 (OSD)。
1 帶有 OSD 的自動頁面分割。
2 自動頁面分割,但沒有 OSD 或 OCR。
3 全自動分頁,但無OSD。 (默認)
4 假設有一列大小可變的文本。
5 假設有一個統一的垂直對齊文本塊。
6 假設有一個統一的文本塊。(網路上教學常用)
7 將圖像視為單個文本行。
8 將圖像視為一個詞。
9 將圖像視為圓圈中的單個單詞。
10 將圖像視為單個字符。

OCR 引擎

OCR Engine modes
tesseract test.jpg result -oem 1 -l chi_tra
0 Legacy engine only.
1 Neural nets LSTM engine only.
2 Legacy + LSTM engines.
3 Default, based on what is available.

參考資料

分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.