Tesseract OCR - 繁體中文【訓練篇】

更新 發佈閱讀 8 分鐘

GitHub

Tesseract OCRtesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository) (github.com)
Tesseract User ManualTesseract User Manual | tessdoc (tesseract-ocr.github.io)
How to train LSTM Tesseracttessdoc/TrainingTesseract-5.md at main ·tesseract-ocr/tessdoc (github.com)
  • 作業系統:win10
  • 版本訊息-命令提示字元(CMD)
C:\Users\user>tesseract --version
tesseract v5.0.1.20220118
leptonica-1.78.0
libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.3) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0
Found AVX2
Found AVX
Found FMA
Found SSE4.1
Found libarchive 3.5.0 zlib/1.2.11 liblzma/5.2.3 bz2lib/1.0.6 liblz4/1.7.5 libzstd/1.4.5
Found libcurl/7.77.0-DEV Schannel zlib/1.2.11 zstd/1.4.5 libidn2/2.0.4 nghttp2/1.31.0

一、準備資料夾 Git Clone

1、下載GIT:Git (git-scm.com)

raw-image

2、tesstrainsh-win

  • 桌面右鍵(Git Bash Here)開啟Bash,輸入下面指令
git clone https://github.com/livezingy/tesstrainsh-win.git

備註:shift+INS(位置在9宮格數字鍵的0) 可以貼上

livezingy/tesstrainsh-win: Train Tesseract LSTM with tesstrain.sh on Windows (github.com)



二、準備資料

1、fonts(範例為新細明體)

尋找想訓練的字體(.ttf)檔,放入fonts資料夾中
  • 若字體檔案是(.tcc)檔,可以直接手動變更副檔名
C:\Windows\Fonts
raw-image
  • 修改字體名稱(改成英文)

  由於等等在讀字型名稱時,中文的名稱會出現亂碼(目前還不確定原因),我有嘗試將Bash設定UTF-8但是沒有效果。

raw-image
  • 字型編輯器

  底下參考資料附上FontForge的youtube教學影片

FontForge(windows):FontForge on Windows

Step1、Element

Step2、Font Info...

Step3、TFF Names

raw-image

Step4、File

Step5、Generate Fonts...

Step6、TrueType(取消勾選Vaildata Before Saving)

Step7、Generate

2、langdata_lstm

  • 刪除原先的langdata_lstm,重新下載
  • 資料夾中點選右鍵(Git Bash Here)開啟Bash,輸入下面指令
git clone https://github.com/tesseract-ocr/langdata_lstm.git

備註:shift+INS(位置在9宮格數字鍵的0) 可以貼上

raw-image

3、tessdata

下載chi_tra.traineddata放入tessdata資料夾中

tessdata_best:tesseract-ocr/tessdata_best: Best (most accurate) trained LSTM models. (github.com)

將configs資料夾複製放入tessdata資料夾中
C:\Program Files\Tesseract-OCR\tessdata


三、修改tesstrainDone.sh

  使用notepad++開啟tesstrainDone.sh修改內容

notepad++:Notepad++ (notepad-plus-plus.org)

  • 【CTRL+F】將eng取代為chi_tra
  • 【CTRL+F】將Impact Condensed取代為PMingLiU
  • 【CTRL+F】將Impact取代為PMingLiU
  tesstrainsh-win\langdata_lstm\chi_tra,中的所有文件使用notepad++開啟,並且修改換行格式
  • 編輯
  • 換行格式(E)
  • UNIX格式(LF)



四、執行tesstrainDone.sh

  在tesstrainsh-win中右鍵(Git Bash Here)開啟Bash,輸入下面指令

sh tesstrainDone.sh
  • 訓練結束後,會出現下面訊息
Finished! Selected model with minimal training error rate (BCER) = 2.639
Loaded file output/impact_checkpoint, unpacking...
  • tesstrainsh-win\output,會產生PMingLiU.traineddata

錯誤訊息

  • 如果不能讀取字體名稱,則使用報錯時系統建議的字體名稱
Could not find font named 'Microsoft JhengHei UI Light'.
Pango suggested font 'Microsoft JhengHei UI weight=290'.

報錯顯示:Microsoft JhengHei UI Light 建議改為 Microsoft JhengHei UI weight=290

五、測試

  將PMingLiU.traineddata放入下面路徑中

C:\Program Files\Tesseract-OCR\tessdata

  挑選一張具有文字的圖片(.PNG),於cmd中輸入指令

tesseract XXX.png result_old -l chi_tra
tesseract XXX.png result_new -l output



參考資料

Train Tesseract LSTM with tesstrain.sh on Windows – 我和你 (o1o1.com.cn)

Training/Fine Tuning Tesseract OCR LSTM for New Fonts - YouTube

Win03:修改字型名稱,改成直觀又好記的 + 免費字型下載 | Font Forge 字型編輯軟體 - YouTube


留言
avatar-img
匿名李的沙龍
7會員
46內容數
這是新手寫給新手的學習程式語言基礎教學筆記,內容會以C++為主
匿名李的沙龍的其他內容
2022/08/25
Python安裝、外部程式包安裝(pip install xxx)、Hello World 【安裝Python】 Visual Studio Code-Download 進入vscode(延伸模組) 安裝中文介面(輸入ch搜尋) 安裝 搜尋命令提示字元 命令提示字元打python 創建檔案
Thumbnail
2022/08/25
Python安裝、外部程式包安裝(pip install xxx)、Hello World 【安裝Python】 Visual Studio Code-Download 進入vscode(延伸模組) 安裝中文介面(輸入ch搜尋) 安裝 搜尋命令提示字元 命令提示字元打python 創建檔案
Thumbnail
2022/08/19
Google、OneDrive、icloud 鑒於最近Google教育版雲端大開殺戒,來統計一下雲端費用。
Thumbnail
2022/08/19
Google、OneDrive、icloud 鑒於最近Google教育版雲端大開殺戒,來統計一下雲端費用。
Thumbnail
2022/04/01
Visual Studio Code Key Bindings
Thumbnail
2022/04/01
Visual Studio Code Key Bindings
Thumbnail
看更多
你可能也想看
Thumbnail
在 vocus 與你一起探索內容、發掘靈感的路上,我們又將啟動新的冒險——vocus App 正式推出! 現在起,你可以在 iOS App Store 下載全新上架的 vocus App。 無論是在通勤路上、日常空檔,或一天結束後的放鬆時刻,都能自在沈浸在內容宇宙中。
Thumbnail
在 vocus 與你一起探索內容、發掘靈感的路上,我們又將啟動新的冒險——vocus App 正式推出! 現在起,你可以在 iOS App Store 下載全新上架的 vocus App。 無論是在通勤路上、日常空檔,或一天結束後的放鬆時刻,都能自在沈浸在內容宇宙中。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
Tyrano Builder Next 功能:修改字體 修改流程一樣分為兩個步驟,非常簡單! 第一步,新增字體檔案 第二步,選擇使用字體
Thumbnail
Tyrano Builder Next 功能:修改字體 修改流程一樣分為兩個步驟,非常簡單! 第一步,新增字體檔案 第二步,選擇使用字體
Thumbnail
變更字體的設定,TB和TBN都有,但是設定方法不太一樣。 Tyrano Builder的修改流程分為以下兩個步驟 1.新增字體檔案 2.選擇使用字體
Thumbnail
變更字體的設定,TB和TBN都有,但是設定方法不太一樣。 Tyrano Builder的修改流程分為以下兩個步驟 1.新增字體檔案 2.選擇使用字體
Thumbnail
本篇文章介紹如何使用Git Bash進行版本控制操作,包括創建repository、查看狀態、歷程以及加入暫存和提交暫存等操作。透過基本的Git指令,您可以更深入地瞭解Git工具的使用方法。
Thumbnail
本篇文章介紹如何使用Git Bash進行版本控制操作,包括創建repository、查看狀態、歷程以及加入暫存和提交暫存等操作。透過基本的Git指令,您可以更深入地瞭解Git工具的使用方法。
Thumbnail
torchaudio 是 PyTorch 的官方音訊處理庫,提供了許多用於音訊數據讀取、轉換和處理的工具和功能。它旨在簡化音訊數據的加載、預處理和後續處理過程,同時與 PyTorch 緊密整合, 包括我們常常用於資料科學處理的Tensor資料。 這個篇章主要在分享我們如何使用標準的I/O進行讀
Thumbnail
torchaudio 是 PyTorch 的官方音訊處理庫,提供了許多用於音訊數據讀取、轉換和處理的工具和功能。它旨在簡化音訊數據的加載、預處理和後續處理過程,同時與 PyTorch 緊密整合, 包括我們常常用於資料科學處理的Tensor資料。 這個篇章主要在分享我們如何使用標準的I/O進行讀
Thumbnail
相信替影片配字幕是許多人心中的痛,本文帶你在三分鐘內能夠用你的電腦,寫出一個使用AI將聲音轉成字幕srt檔案的互動操作網頁,可以連接麥克風測試,也可以上傳聲音檔案或是MP3來測試。目前的多國語言版本,能自動辨別語言,不用特別指定,經實測,中英文混雜也能夠正確輸出。
Thumbnail
相信替影片配字幕是許多人心中的痛,本文帶你在三分鐘內能夠用你的電腦,寫出一個使用AI將聲音轉成字幕srt檔案的互動操作網頁,可以連接麥克風測試,也可以上傳聲音檔案或是MP3來測試。目前的多國語言版本,能自動辨別語言,不用特別指定,經實測,中英文混雜也能夠正確輸出。
Thumbnail
之前因為常需要跑devops相關工具,因此開發環境完全是用Ubuntu的圖形化介面,但偶爾會遇到一些延遲以及小bug,偶然的機會下發現在windows設定git-bash似乎也能達到一樣的效果,也能順便增加對windows開發人員生態系的了解,因此本篇主要是針對如何設定美麗的terminal以及vs
Thumbnail
之前因為常需要跑devops相關工具,因此開發環境完全是用Ubuntu的圖形化介面,但偶爾會遇到一些延遲以及小bug,偶然的機會下發現在windows設定git-bash似乎也能達到一樣的效果,也能順便增加對windows開發人員生態系的了解,因此本篇主要是針對如何設定美麗的terminal以及vs
Thumbnail
「你是否覺得電腦的那些固定字體已經看膩了呢?」 「你是否覺得每次電腦只能用黑體、標楷體或是新細明體呢?」 那麼今天要來介紹一下,如何在網路上安裝其他的字體,以及介紹幾種安裝字體的網站唷~
Thumbnail
「你是否覺得電腦的那些固定字體已經看膩了呢?」 「你是否覺得每次電腦只能用黑體、標楷體或是新細明體呢?」 那麼今天要來介紹一下,如何在網路上安裝其他的字體,以及介紹幾種安裝字體的網站唷~
Thumbnail
使用網路上找來的原碼 測試圖片 因版本問題會出現 error pytesseract.pytesseract.TesseractNotFoundError: C:\Program Files (x86)\Tesseract-OCR esseract.exe is not installed or i
Thumbnail
使用網路上找來的原碼 測試圖片 因版本問題會出現 error pytesseract.pytesseract.TesseractNotFoundError: C:\Program Files (x86)\Tesseract-OCR esseract.exe is not installed or i
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News