GitHub
Tesseract OCR:tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository) (github.com)
Tesseract User Manual:Tesseract User Manual | tessdoc (tesseract-ocr.github.io)
How to train LSTM Tesseract:tessdoc/TrainingTesseract-5.md at main ·tesseract-ocr/tessdoc (github.com)
- 作業系統:win10
- 版本訊息-命令提示字元(CMD)
C:\Users\user>tesseract --version
tesseract v5.0.1.20220118
leptonica-1.78.0
libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.3) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0
Found AVX2
Found AVX
Found FMA
Found SSE4.1
Found libarchive 3.5.0 zlib/1.2.11 liblzma/5.2.3 bz2lib/1.0.6 liblz4/1.7.5 libzstd/1.4.5
Found libcurl/7.77.0-DEV Schannel zlib/1.2.11 zstd/1.4.5 libidn2/2.0.4 nghttp2/1.31.
一、簡單OCR識別
tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]
1、開啟命令提示字元(cmd),進入到要識別的圖片的路徑下
cd 圖片路徑
2、tesseract 【預識別圖片之名稱】【生成的結果文件的名稱】-l【字庫】
- -l :選擇輸入語言/ 預設是英文 default “eng”
tesseract test.jpg result -l chi_tra
3、產生result.txt文件
二、使用一種語言
-l LANG
- LANG是三個英文字母組成的代表各種語言
- 可以在命令提示字元輸入tesseract --list-langs來查看目前有什麼語言可以選擇
三、使用多種語言
-l LANG[+LANG]
- 舉例(繁體中文+英文):tesseract test.jpg result -l chi_tra+eng
- 根據語言的順序,輸出可能會有所不同例如:chi_tra+eng 和 eng+chi_tra
tesseract使用方式
Usage
命令提示字元(cmd):
tesseract --help
tesseract --help-extra
tesseract --version
tesseract --list-langs
- tesseract imagename outputbase[-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]
使用不同的頁面分割模式
Page segmentation modes
tesseract test.jpg result -psm 6 -l chi_tra
0 僅限方向和腳本檢測 (OSD)。
1 帶有 OSD 的自動頁面分割。
2 自動頁面分割,但沒有 OSD 或 OCR。
3 全自動分頁,但無OSD。 (默認)
4 假設有一列大小可變的文本。
5 假設有一個統一的垂直對齊文本塊。
6 假設有一個統一的文本塊。(網路上教學常用)
7 將圖像視為單個文本行。
8 將圖像視為一個詞。
9 將圖像視為圓圈中的單個單詞。
10 將圖像視為單個字符。
OCR 引擎
OCR Engine modes
tesseract test.jpg result -oem 1 -l chi_tra
0 Legacy engine only.
1 Neural nets LSTM engine only.
2 Legacy + LSTM engines.
3 Default, based on what is available.
參考資料