Tesseract OCR - 繁體中文【訓練篇】

更新於 發佈於 閱讀時間約 8 分鐘

GitHub

Tesseract OCRtesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository) (github.com)
Tesseract User ManualTesseract User Manual | tessdoc (tesseract-ocr.github.io)
How to train LSTM Tesseracttessdoc/TrainingTesseract-5.md at main ·tesseract-ocr/tessdoc (github.com)
  • 作業系統:win10
  • 版本訊息-命令提示字元(CMD)
C:\Users\user>tesseract --version
tesseract v5.0.1.20220118
leptonica-1.78.0
libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.3) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0
Found AVX2
Found AVX
Found FMA
Found SSE4.1
Found libarchive 3.5.0 zlib/1.2.11 liblzma/5.2.3 bz2lib/1.0.6 liblz4/1.7.5 libzstd/1.4.5
Found libcurl/7.77.0-DEV Schannel zlib/1.2.11 zstd/1.4.5 libidn2/2.0.4 nghttp2/1.31.0

一、準備資料夾 Git Clone

1、下載GIT:Git (git-scm.com)

git(Download for Wimdows)

git(Download for Wimdows)

2、tesstrainsh-win

  • 桌面右鍵(Git Bash Here)開啟Bash,輸入下面指令
git clone https://github.com/livezingy/tesstrainsh-win.git

備註:shift+INS(位置在9宮格數字鍵的0) 可以貼上

livezingy/tesstrainsh-win: Train Tesseract LSTM with tesstrain.sh on Windows (github.com)



二、準備資料

1、fonts(範例為新細明體)

尋找想訓練的字體(.ttf)檔,放入fonts資料夾中
  • 若字體檔案是(.tcc)檔,可以直接手動變更副檔名
C:\Windows\Fonts
新細明體

新細明體

  • 修改字體名稱(改成英文)

  由於等等在讀字型名稱時,中文的名稱會出現亂碼(目前還不確定原因),我有嘗試將Bash設定UTF-8但是沒有效果。

字型名稱:細明體

字型名稱:細明體

  • 字型編輯器

  底下參考資料附上FontForge的youtube教學影片

FontForge(windows):FontForge on Windows

Step1、Element

Step2、Font Info...

Step3、TFF Names

將新細明體改成英文(PMingLiU)

將新細明體改成英文(PMingLiU)

Step4、File

Step5、Generate Fonts...

Step6、TrueType(取消勾選Vaildata Before Saving)

Step7、Generate

2、langdata_lstm

  • 刪除原先的langdata_lstm,重新下載
  • 資料夾中點選右鍵(Git Bash Here)開啟Bash,輸入下面指令
git clone https://github.com/tesseract-ocr/langdata_lstm.git

備註:shift+INS(位置在9宮格數字鍵的0) 可以貼上

raw-image

3、tessdata

下載chi_tra.traineddata放入tessdata資料夾中

tessdata_best:tesseract-ocr/tessdata_best: Best (most accurate) trained LSTM models. (github.com)

將configs資料夾複製放入tessdata資料夾中
C:\Program Files\Tesseract-OCR\tessdata


三、修改tesstrainDone.sh

  使用notepad++開啟tesstrainDone.sh修改內容

notepad++:Notepad++ (notepad-plus-plus.org)

  • 【CTRL+F】將eng取代為chi_tra
  • 【CTRL+F】將Impact Condensed取代為PMingLiU
  • 【CTRL+F】將Impact取代為PMingLiU
  tesstrainsh-win\langdata_lstm\chi_tra,中的所有文件使用notepad++開啟,並且修改換行格式
  • 編輯
  • 換行格式(E)
  • UNIX格式(LF)



四、執行tesstrainDone.sh

  在tesstrainsh-win中右鍵(Git Bash Here)開啟Bash,輸入下面指令

sh tesstrainDone.sh
  • 訓練結束後,會出現下面訊息
Finished! Selected model with minimal training error rate (BCER) = 2.639
Loaded file output/impact_checkpoint, unpacking...
  • tesstrainsh-win\output,會產生PMingLiU.traineddata

錯誤訊息

  • 如果不能讀取字體名稱,則使用報錯時系統建議的字體名稱
Could not find font named 'Microsoft JhengHei UI Light'.
Pango suggested font 'Microsoft JhengHei UI weight=290'.

報錯顯示:Microsoft JhengHei UI Light 建議改為 Microsoft JhengHei UI weight=290

五、測試

  將PMingLiU.traineddata放入下面路徑中

C:\Program Files\Tesseract-OCR\tessdata

  挑選一張具有文字的圖片(.PNG),於cmd中輸入指令

tesseract XXX.png result_old -l chi_tra
tesseract XXX.png result_new -l output



參考資料

Train Tesseract LSTM with tesstrain.sh on Windows – 我和你 (o1o1.com.cn)

Training/Fine Tuning Tesseract OCR LSTM for New Fonts - YouTube

Win03:修改字型名稱,改成直觀又好記的 + 免費字型下載 | Font Forge 字型編輯軟體 - YouTube


留言
avatar-img
留言分享你的想法!
avatar-img
匿名李的沙龍
6會員
46內容數
這是新手寫給新手的學習程式語言基礎教學筆記,內容會以C++為主
匿名李的沙龍的其他內容
2022/08/25
Python安裝、外部程式包安裝(pip install xxx)、Hello World 【安裝Python】 Visual Studio Code-Download 進入vscode(延伸模組) 安裝中文介面(輸入ch搜尋) 安裝 搜尋命令提示字元 命令提示字元打python 創建檔案
Thumbnail
2022/08/25
Python安裝、外部程式包安裝(pip install xxx)、Hello World 【安裝Python】 Visual Studio Code-Download 進入vscode(延伸模組) 安裝中文介面(輸入ch搜尋) 安裝 搜尋命令提示字元 命令提示字元打python 創建檔案
Thumbnail
2022/08/19
Google、OneDrive、icloud 鑒於最近Google教育版雲端大開殺戒,來統計一下雲端費用。
Thumbnail
2022/08/19
Google、OneDrive、icloud 鑒於最近Google教育版雲端大開殺戒,來統計一下雲端費用。
Thumbnail
2022/04/01
Visual Studio Code Key Bindings
Thumbnail
2022/04/01
Visual Studio Code Key Bindings
Thumbnail
看更多
你可能也想看
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
Tyrano Builder Next 功能:修改字體 修改流程一樣分為兩個步驟,非常簡單! 第一步,新增字體檔案 第二步,選擇使用字體
Thumbnail
Tyrano Builder Next 功能:修改字體 修改流程一樣分為兩個步驟,非常簡單! 第一步,新增字體檔案 第二步,選擇使用字體
Thumbnail
變更字體的設定,TB和TBN都有,但是設定方法不太一樣。 Tyrano Builder的修改流程分為以下兩個步驟 1.新增字體檔案 2.選擇使用字體
Thumbnail
變更字體的設定,TB和TBN都有,但是設定方法不太一樣。 Tyrano Builder的修改流程分為以下兩個步驟 1.新增字體檔案 2.選擇使用字體
Thumbnail
本篇文章介紹如何使用Git Bash進行版本控制操作,包括創建repository、查看狀態、歷程以及加入暫存和提交暫存等操作。透過基本的Git指令,您可以更深入地瞭解Git工具的使用方法。
Thumbnail
本篇文章介紹如何使用Git Bash進行版本控制操作,包括創建repository、查看狀態、歷程以及加入暫存和提交暫存等操作。透過基本的Git指令,您可以更深入地瞭解Git工具的使用方法。
Thumbnail
torchaudio 是 PyTorch 的官方音訊處理庫,提供了許多用於音訊數據讀取、轉換和處理的工具和功能。它旨在簡化音訊數據的加載、預處理和後續處理過程,同時與 PyTorch 緊密整合, 包括我們常常用於資料科學處理的Tensor資料。 這個篇章主要在分享我們如何使用標準的I/O進行讀
Thumbnail
torchaudio 是 PyTorch 的官方音訊處理庫,提供了許多用於音訊數據讀取、轉換和處理的工具和功能。它旨在簡化音訊數據的加載、預處理和後續處理過程,同時與 PyTorch 緊密整合, 包括我們常常用於資料科學處理的Tensor資料。 這個篇章主要在分享我們如何使用標準的I/O進行讀
Thumbnail
相信替影片配字幕是許多人心中的痛,本文帶你在三分鐘內能夠用你的電腦,寫出一個使用AI將聲音轉成字幕srt檔案的互動操作網頁,可以連接麥克風測試,也可以上傳聲音檔案或是MP3來測試。目前的多國語言版本,能自動辨別語言,不用特別指定,經實測,中英文混雜也能夠正確輸出。
Thumbnail
相信替影片配字幕是許多人心中的痛,本文帶你在三分鐘內能夠用你的電腦,寫出一個使用AI將聲音轉成字幕srt檔案的互動操作網頁,可以連接麥克風測試,也可以上傳聲音檔案或是MP3來測試。目前的多國語言版本,能自動辨別語言,不用特別指定,經實測,中英文混雜也能夠正確輸出。
Thumbnail
之前因為常需要跑devops相關工具,因此開發環境完全是用Ubuntu的圖形化介面,但偶爾會遇到一些延遲以及小bug,偶然的機會下發現在windows設定git-bash似乎也能達到一樣的效果,也能順便增加對windows開發人員生態系的了解,因此本篇主要是針對如何設定美麗的terminal以及vs
Thumbnail
之前因為常需要跑devops相關工具,因此開發環境完全是用Ubuntu的圖形化介面,但偶爾會遇到一些延遲以及小bug,偶然的機會下發現在windows設定git-bash似乎也能達到一樣的效果,也能順便增加對windows開發人員生態系的了解,因此本篇主要是針對如何設定美麗的terminal以及vs
Thumbnail
「你是否覺得電腦的那些固定字體已經看膩了呢?」 「你是否覺得每次電腦只能用黑體、標楷體或是新細明體呢?」 那麼今天要來介紹一下,如何在網路上安裝其他的字體,以及介紹幾種安裝字體的網站唷~
Thumbnail
「你是否覺得電腦的那些固定字體已經看膩了呢?」 「你是否覺得每次電腦只能用黑體、標楷體或是新細明體呢?」 那麼今天要來介紹一下,如何在網路上安裝其他的字體,以及介紹幾種安裝字體的網站唷~
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News