Tesseract OCR - 繁體中文【訓練篇】

更新於 2025/03/01發佈於 2022/03/01閱讀時間約 8 分鐘

GitHub

Tesseract OCR：tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository) (github.com)

Tesseract User Manual：Tesseract User Manual | tessdoc (tesseract-ocr.github.io)

How to train LSTM Tesseract：tessdoc/TrainingTesseract-5.md at main ·tesseract-ocr/tessdoc (github.com)

作業系統：win10
版本訊息-命令提示字元(CMD)

C:\Users\user>tesseract --version
tesseract v5.0.1.20220118
leptonica-1.78.0
libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.3) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0
Found AVX2
Found AVX
Found FMA
Found SSE4.1
Found libarchive 3.5.0 zlib/1.2.11 liblzma/5.2.3 bz2lib/1.0.6 liblz4/1.7.5 libzstd/1.4.5
Found libcurl/7.77.0-DEV Schannel zlib/1.2.11 zstd/1.4.5 libidn2/2.0.4 nghttp2/1.31.0

一、準備資料夾 Git Clone

1、下載GIT：Git (git-scm.com)

2、tesstrainsh-win

桌面右鍵(Git Bash Here)開啟Bash，輸入下面指令

git clone https://github.com/livezingy/tesstrainsh-win.git

備註：shift+INS(位置在9宮格數字鍵的0) 可以貼上

livezingy/tesstrainsh-win: Train Tesseract LSTM with tesstrain.sh on Windows (github.com)

二、準備資料

1、fonts(範例為新細明體)

尋找想訓練的字體(.ttf)檔，放入fonts資料夾中

若字體檔案是(.tcc)檔，可以直接手動變更副檔名

C:\Windows\Fonts

修改字體名稱(改成英文)

　　由於等等在讀字型名稱時，中文的名稱會出現亂碼(目前還不確定原因)，我有嘗試將Bash設定UTF-8但是沒有效果。

字型編輯器

　　底下參考資料附上FontForge的youtube教學影片

FontForge(windows)：FontForge on Windows

Step1、Element

Step2、Font Info...

Step3、TFF Names

Step4、File

Step5、Generate Fonts...

Step6、TrueType(取消勾選Vaildata Before Saving)

Step7、Generate

2、langdata_lstm

刪除原先的langdata_lstm，重新下載
資料夾中點選右鍵(Git Bash Here)開啟Bash，輸入下面指令

git clone https://github.com/tesseract-ocr/langdata_lstm.git

備註：shift+INS(位置在9宮格數字鍵的0) 可以貼上

3、tessdata

下載chi_tra.traineddata放入tessdata資料夾中

tessdata_best：tesseract-ocr/tessdata_best: Best (most accurate) trained LSTM models. (github.com)

將configs資料夾複製放入tessdata資料夾中

C:\Program Files\Tesseract-OCR\tessdata

三、修改tesstrainDone.sh

　　使用notepad++開啟tesstrainDone.sh修改內容

notepad++：Notepad++ (notepad-plus-plus.org)

【CTRL+F】將eng取代為chi_tra
【CTRL+F】將Impact Condensed取代為PMingLiU
【CTRL+F】將Impact取代為PMingLiU

　　tesstrainsh-win\langdata_lstm\chi_tra，中的所有文件使用notepad++開啟，並且修改換行格式

編輯
換行格式(E)
UNIX格式(LF)

四、執行tesstrainDone.sh

　　在tesstrainsh-win中右鍵(Git Bash Here)開啟Bash，輸入下面指令

sh tesstrainDone.sh

訓練結束後，會出現下面訊息

Finished! Selected model with minimal training error rate (BCER) = 2.639
Loaded file output/impact_checkpoint, unpacking...

tesstrainsh-win\output，會產生PMingLiU.traineddata

錯誤訊息

如果不能讀取字體名稱，則使用報錯時系統建議的字體名稱

Could not find font named 'Microsoft JhengHei UI Light'.
Pango suggested font 'Microsoft JhengHei UI weight=290'.

報錯顯示：Microsoft JhengHei UI Light 建議改為 Microsoft JhengHei UI weight=290

五、測試

　　將PMingLiU.traineddata放入下面路徑中

C:\Program Files\Tesseract-OCR\tessdata

　　挑選一張具有文字的圖片(.PNG)，於cmd中輸入指令

tesseract XXX.png result_old -l chi_tra
tesseract XXX.png result_new -l output

參考資料

Train Tesseract LSTM with tesstrain.sh on Windows – 我和你 (o1o1.com.cn)

Training/Fine Tuning Tesseract OCR LSTM for New Fonts - YouTube

Win03：修改字型名稱，改成直觀又好記的 + 免費字型下載 | Font Forge 字型編輯軟體 - YouTube

#Tesseract

#OCR

#光學字元辨識

留言

留言分享你的想法！

匿名李的沙龍

7會員

46內容數

這是新手寫給新手的學習程式語言基礎教學筆記，內容會以C++為主

匿名李的沙龍的其他內容

2022/08/25

Python新手學習0

Python安裝、外部程式包安裝(pip install xxx)、Hello World 【安裝Python】 Visual Studio Code-Download 進入vscode(延伸模組) 安裝中文介面(輸入ch搜尋) 安裝搜尋命令提示字元命令提示字元打python 創建檔案

2022/08/25

Python新手學習0

2022/08/19

雲端方案統計

Google、OneDrive、icloud 鑒於最近Google教育版雲端大開殺戒，來統計一下雲端費用。

2022/08/19

雲端方案統計

Google、OneDrive、icloud 鑒於最近Google教育版雲端大開殺戒，來統計一下雲端費用。

2022/04/01

Visual Studio Code 快捷鍵

Visual Studio Code Key Bindings

2022/04/01

Visual Studio Code 快捷鍵

Visual Studio Code Key Bindings

看更多

你可能也想看

貓日宅夜的漫遊隨筆

【TBN】Tyrano Builder Next 功能：變更字體

Tyrano Builder Next 功能：修改字體修改流程一樣分為兩個步驟，非常簡單！第一步，新增字體檔案第二步，選擇使用字體

#TyranoBuilder#TyranoBuilderNext#遊戲引擎

2024/07/17

貓日宅夜的漫遊隨筆

【TBN】Tyrano Builder Next 功能：變更字體

Tyrano Builder Next 功能：修改字體修改流程一樣分為兩個步驟，非常簡單！第一步，新增字體檔案第二步，選擇使用字體

#TyranoBuilder#TyranoBuilderNext#遊戲引擎

2024/07/17

貓日宅夜的漫遊隨筆

【TB】Tyrano Builder 功能介紹：變更字體

變更字體的設定，TB和TBN都有，但是設定方法不太一樣。 Tyrano Builder的修改流程分為以下兩個步驟 1.新增字體檔案 2.選擇使用字體

#TyranoBuilder#TB#修改字體

2024/07/10

貓日宅夜的漫遊隨筆

【TB】Tyrano Builder 功能介紹：變更字體

變更字體的設定，TB和TBN都有，但是設定方法不太一樣。 Tyrano Builder的修改流程分為以下兩個步驟 1.新增字體檔案 2.選擇使用字體

#TyranoBuilder#TB#修改字體

2024/07/10

Err500

【Git】版本控制基本指令

本篇文章介紹如何使用Git Bash進行版本控制操作，包括創建repository、查看狀態、歷程以及加入暫存和提交暫存等操作。透過基本的Git指令，您可以更深入地瞭解Git工具的使用方法。

2024/05/26

2024/05/26

【🎓 Python的深度問答集】torchaudio 對部分段落進行音訊解碼

torchaudio 是 PyTorch 的官方音訊處理庫，提供了許多用於音訊數據讀取、轉換和處理的工具和功能。它旨在簡化音訊數據的加載、預處理和後續處理過程，同時與 PyTorch 緊密整合，包括我們常常用於資料科學處理的Tensor資料。這個篇章主要在分享我們如何使用標準的I/O進行讀

#python的深度問答集#python#程式語言

2024/01/21

阿Han的沙龍

【🎓 Python的深度問答集】torchaudio 對部分段落進行音訊解碼

#python的深度問答集#python#程式語言

2024/01/21

無限智慧學院的沙龍

三分鐘實作"多國語言"轉字幕網頁APP (Whisper-V3-Large)

相信替影片配字幕是許多人心中的痛，本文帶你在三分鐘內能夠用你的電腦，寫出一個使用AI將聲音轉成字幕srt檔案的互動操作網頁，可以連接麥克風測試，也可以上傳聲音檔案或是MP3來測試。目前的多國語言版本，能自動辨別語言，不用特別指定，經實測，中英文混雜也能夠正確輸出。

#WhisperV3Large#Gradio#HuggingFace

2023/11/13

無限智慧學院的沙龍

三分鐘實作"多國語言"轉字幕網頁APP (Whisper-V3-Large)

#WhisperV3Large#Gradio#HuggingFace

2023/11/13

Alan的開發者天地

windows terminal + git-bash + zsh + oh-my-zsh

之前因為常需要跑devops相關工具，因此開發環境完全是用Ubuntu的圖形化介面，但偶爾會遇到一些延遲以及小bug，偶然的機會下發現在windows設定git-bash似乎也能達到一樣的效果，也能順便增加對windows開發人員生態系的了解，因此本篇主要是針對如何設定美麗的terminal以及vs

#terminal#Windows#終端機

2023/04/20

Alan的開發者天地

windows terminal + git-bash + zsh + oh-my-zsh

#terminal#Windows#終端機

2023/04/20