Tesseract OCR - 繁體中文【評估篇】

更新於 2025/03/01發佈於 2022/03/01閱讀時間約 4 分鐘

GitHub

Tesseract OCR：tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository) (github.com)

Tesseract User Manual：Tesseract User Manual | tessdoc (tesseract-ocr.github.io)

How to train LSTM Tesseract：tessdoc/TrainingTesseract-5.md at main ·tesseract-ocr/tessdoc (github.com)

作業系統：win10
版本訊息-命令提示字元(CMD)

C:\Users\user>tesseract --version tesseract v5.0.1.20220118 leptonica-1.78.0 libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.3) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0 Found AVX2 Found AVX Found FMA Found SSE4.1 Found libarchive 3.5.0 zlib/1.2.11 liblzma/5.2.3 bz2lib/1.0.6 liblz4/1.7.5 libzstd/1.4.5 Found libcurl/7.77.0-DEV Schannel zlib/1.2.11 zstd/1.4.5 libidn2/2.0.4 nghttp2/1.31.0

一、修改eval.sh

使用notepad++開啟eval.sh修改內容

評估原本的chi_tra.lstm

【CTRL+F】將eng取代為chi_tra

lstmeval \
--model train/chi_tra.lstm \
--traineddata tessdata/chi_tra.traineddata \
--eval_listfile train/chi_tra.training_files.txt

評估訓練完的PMingLiU_checkpoint

lstmeval \
--model train/PMingLiU_checkpoint \
--traineddata tessdata/chi_tra.traineddata \
--eval_listfile train/chi_tra.training_files.txt

二、執行eval.sh

在tesstrainsh-win中右鍵(Git Bash Here)開啟Bash，輸入下面指令

sh eval.sh

在 Tesseract 的情況下，CER 和 WER 被測量為 Bag-of-CER 和 Bag-of-WER，即不是通過序列比對，而是作為計數（跨每行）。

Bag of Char error rate(BCER)
Bag of Word error rate(BWER)

評估原本的chi_tra.lstm

BCER eval=5.102329, BWER eval=28.982749

評估訓練完的PMingLiU_checkpoint

BCER eval=3.109002, BWER eval=20.521559

參考資料

Train Tesseract LSTM with tesstrain.sh on Windows – 我和你 (o1o1.com.cn)

Issues · tesseract-ocr/tesseract (github.com)

#Tesseract

#OCR

#光學字元辨識

留言

留言分享你的想法！

匿名李的沙龍

6會員

46內容數

這是新手寫給新手的學習程式語言基礎教學筆記，內容會以C++為主

匿名李的沙龍的其他內容

2022/08/25

Python新手學習0

Python安裝、外部程式包安裝(pip install xxx)、Hello World 【安裝Python】 Visual Studio Code-Download 進入vscode(延伸模組) 安裝中文介面(輸入ch搜尋) 安裝搜尋命令提示字元命令提示字元打python 創建檔案

2022/08/25

Python新手學習0

2022/08/19

雲端方案統計

Google、OneDrive、icloud 鑒於最近Google教育版雲端大開殺戒，來統計一下雲端費用。

2022/08/19

雲端方案統計

Google、OneDrive、icloud 鑒於最近Google教育版雲端大開殺戒，來統計一下雲端費用。

2022/04/01

Visual Studio Code 快捷鍵

Visual Studio Code Key Bindings

2022/04/01

Visual Studio Code 快捷鍵

Visual Studio Code Key Bindings

看更多

你可能也想看

好好宅在家

設計師也蝦皮購－前陣子為工地買什麼？

家中修繕或裝潢想要找各種小零件時，直接上網採買可以省去不少煩惱～看看Sylvia這回為了工地買了些什麼吧～

#開箱#蝦皮分潤計畫#裝修工程

2025/05/25

好好宅在家

設計師也蝦皮購－前陣子為工地買什麼？

家中修繕或裝潢想要找各種小零件時，直接上網採買可以省去不少煩惱～看看Sylvia這回為了工地買了些什麼吧～

#開箱#蝦皮分潤計畫#裝修工程

2025/05/25

Chloe小窩

我的簡單生活練習：三款包包與日常小物開箱分享

👜簡單生活，從整理包包開始！我的三款愛用包＋隨身小物清單開箱，一起來看看我每天都帶些什麼吧🌿✨

#蝦皮#開箱#蝦皮分潤計畫

2025/06/05

Chloe小窩

我的簡單生活練習：三款包包與日常小物開箱分享

👜簡單生活，從整理包包開始！我的三款愛用包＋隨身小物清單開箱，一起來看看我每天都帶些什麼吧🌿✨

#蝦皮#開箱#蝦皮分潤計畫

2025/06/05

方格子 vocus 官方沙龍

徵才：創作者營運專員/經理（Operations Specialist）｜Creator Partnership 部門

創作者營運專員/經理（Operations Specialist/Manager）將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力，找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。

#vocus#方格子#求職

2025/06/23

方格子 vocus 官方沙龍

徵才：創作者營運專員/經理（Operations Specialist）｜Creator Partnership 部門

#vocus#方格子#求職

2025/06/23

Err500

【Git】版本控制基本指令

本篇文章介紹如何使用Git Bash進行版本控制操作，包括創建repository、查看狀態、歷程以及加入暫存和提交暫存等操作。透過基本的Git指令，您可以更深入地瞭解Git工具的使用方法。

2024/05/26

2024/05/26

【🎓 Python的深度問答集】torchaudio 對部分段落進行音訊解碼

torchaudio 是 PyTorch 的官方音訊處理庫，提供了許多用於音訊數據讀取、轉換和處理的工具和功能。它旨在簡化音訊數據的加載、預處理和後續處理過程，同時與 PyTorch 緊密整合，包括我們常常用於資料科學處理的Tensor資料。這個篇章主要在分享我們如何使用標準的I/O進行讀

#python的深度問答集#python#程式語言

2024/01/21

阿Han的沙龍

【🎓 Python的深度問答集】torchaudio 對部分段落進行音訊解碼

#python的深度問答集#python#程式語言

2024/01/21

阿Han的沙龍

【Linux疑難雜症】Bash腳本將執行指令記到LOG檔並同時輸出於螢幕的tee

我們在進行Linux作業時，常常會撰寫一些腳本來進行我們的任務，而我們執行任務當下假如沒有將當時的參數紀錄起來常常事後追朔時很容易就遺漏掉，尤其是在AI模型訓練這一塊，每次的訓練都是好幾個小時甚至好幾天⏱️⏱️⏱️，我們常常會需要對模型訓練的參數與結果進行分析，那麼蛛絲馬跡就非常重要了，

#Linux#作業系統

2023/11/21

阿Han的沙龍

【Linux疑難雜症】Bash腳本將執行指令記到LOG檔並同時輸出於螢幕的tee

#Linux#作業系統

2023/11/21

超健忘閒人的沙龍

探索 ETCD 操作：來自日常操作和故障排除經驗分享

接續上一篇文章，本文再深入一點關於ETCD基本操作以及在其他文章中關於ETCD節點資料不一致情況的除錯內容分享

#Kubernetes#etcd#Container

2023/11/20

超健忘閒人的沙龍

探索 ETCD 操作：來自日常操作和故障排除經驗分享

接續上一篇文章，本文再深入一點關於ETCD基本操作以及在其他文章中關於ETCD節點資料不一致情況的除錯內容分享

#Kubernetes#etcd#Container

2023/11/20

無限智慧學院的沙龍

三分鐘實作"多國語言"轉字幕網頁APP (Whisper-V3-Large)

相信替影片配字幕是許多人心中的痛，本文帶你在三分鐘內能夠用你的電腦，寫出一個使用AI將聲音轉成字幕srt檔案的互動操作網頁，可以連接麥克風測試，也可以上傳聲音檔案或是MP3來測試。目前的多國語言版本，能自動辨別語言，不用特別指定，經實測，中英文混雜也能夠正確輸出。

#WhisperV3Large#Gradio#HuggingFace

2023/11/13

無限智慧學院的沙龍

三分鐘實作"多國語言"轉字幕網頁APP (Whisper-V3-Large)

#WhisperV3Large#Gradio#HuggingFace

2023/11/13

picoCTF writeups

2023/11/12

picoCTF writeups

2023/11/12

本文將引導您使用簡單的 Header 組件，學習如何使用 render 和 screen 來渲染和查詢元素。我們將探索如何測試文字和字元計數功能，並使用 userEvent 模擬使用者操作。了解如何使用斷言來確保測試結果正確。同時，我們將處理包含 fetch 的異步測試，並介紹 waitFor 函數

#React#Jest#網頁學習

2023/08/13