Tesseract OCR - 繁體中文【評估篇】

閱讀時間約 4 分鐘
GitHub
Tesseract OCRtesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository) (github.com)
Tesseract User ManualTesseract User Manual | tessdoc (tesseract-ocr.github.io)
How to train LSTM Tesseracttessdoc/TrainingTesseract-5.md at main ·tesseract-ocr/tessdoc (github.com)
  • 作業系統:win10
  • 版本訊息-命令提示字元(CMD)
C:\Users\user>tesseract --version tesseract v5.0.1.20220118 leptonica-1.78.0 libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.3) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0 Found AVX2 Found AVX Found FMA Found SSE4.1 Found libarchive 3.5.0 zlib/1.2.11 liblzma/5.2.3 bz2lib/1.0.6 liblz4/1.7.5 libzstd/1.4.5 Found libcurl/7.77.0-DEV Schannel zlib/1.2.11 zstd/1.4.5 libidn2/2.0.4 nghttp2/1.31.0

一、修改eval.sh

使用notepad++開啟eval.sh修改內容

評估原本的chi_tra.lstm

  • 【CTRL+F】將eng取代為chi_tra
lstmeval \
--model train/chi_tra.lstm \
--traineddata tessdata/chi_tra.traineddata \
--eval_listfile train/chi_tra.training_files.txt

評估訓練完的PMingLiU_checkpoint

lstmeval \
--model train/PMingLiU_checkpoint \
--traineddata tessdata/chi_tra.traineddata \
--eval_listfile train/chi_tra.training_files.txt

二、執行eval.sh

在tesstrainsh-win中右鍵(Git Bash Here)開啟Bash,輸入下面指令
sh eval.sh
在 Tesseract 的情況下,CER 和 WER 被測量為 Bag-of-CER 和 Bag-of-WER,即不是通過序列比對,而是作為計數(跨每行)。
  • Bag of Char error rate(BCER)
  • Bag of Word error rate(BWER)

評估原本的chi_tra.lstm

BCER eval=5.102329, BWER eval=28.982749

評估訓練完的PMingLiU_checkpoint

BCER eval=3.109002, BWER eval=20.521559

參考資料

6會員
46內容數
這是新手寫給新手的學習程式語言基礎教學筆記,內容會以C++為主
留言0
查看全部
發表第一個留言支持創作者!
你可能也想看
Google News 追蹤
Thumbnail
接下來第二部分我們持續討論美國總統大選如何佈局, 以及選前一週到年底的操作策略建議 分析兩位候選人政策利多/ 利空的板塊和股票
Thumbnail
🤔為什麼團長的能力是死亡筆記本? 🤔為什麼像是死亡筆記本呢? 🤨作者巧思-讓妮翁死亡合理的幾個伏筆
Thumbnail
學習如何將掃描的PDF轉換為可搜索文本,並高效管理和查找文件。探索先進的OCR技術如何提升文檔處理效率。
Thumbnail
平時都在用tesseract來辨識OCR的部分,在網路上也常常聽說easyOCR比tesseract好用,就拿之前測試的OCR素材來比較看看囉。 以下輸入同樣圖片直接測試,並非絕對誰就比較準,只單純測試數字含英文的部分。 圖片素材就是15碼(英文加數字),檔名為OCR正確結果
OCR (Optical Character Recognition) technology revolutionizes the conversion of texts from physical documents into digital data, enhancing processing
Thumbnail
Google Tesseract Config說明,程式範例實際修改示範 前言 Tesseract 的 config 檔案用於指定 OCR 引擎的設定和參數。這些參數可以影響文本識別的結果 本文將彙整常用參數調整,並呈現不同參數出現不同的辨識結果 官網Tesseract OCR參數說明連結
Thumbnail
使用Google Tesseract應用,擷取圖像的OCR並將讀取到的字元標註在原圖上 光學字元辨識功能 (Optical character recognition,光學字符辨識) 可以將影像中特徵範圍內的文本轉換為數字形式的文本。使用前必須安装Google Tesseract並更新
Thumbnail
這是我自行後製、加上繁體中文字幕的影片。 來源出自對岸史真醫師出版的這本書『口面肌功能治疗临床诊疗手册』,如無簡體中文閱讀障礙,是可以買來自行瞭解,增強戴活動式矯正裝置的動力。 不過此書的預設閱讀對象是醫護專業人員,有點艱深,所以我已經把大部分較適合當科普材料的部分,繁體中文化,作為我的口腔衛教材料
Thumbnail
作者申克博士(Sönke Ahrens) 在繁體版書籍線上交流講座中,分享 10 點使用卡片盒筆記法的重點原則,這篇文章摘要講座中 10 點原則的精華。有些內容翻成中文會失去脈絡,因此我在後面加上英文原文單字,並且加入一些個人理解的闡述。
Thumbnail
芫荽 ㄩㄢ‘ ㄙㄨㄟ - 繖形科「胡荽」的別名。也稱為「香菜」、「香荽」。 - 芫荽在台灣各地栽培普遍,台灣全島各地均有栽培。 - 邰智源很討厭的植物。 - 台南到處可見。 - 還好我會講台語。 Shopping Design 的介紹:按這裡 字體「芫荽」:按此下載
Thumbnail
[懷舊遊戲週報 2021/11-1] 懷舊遊戲週報收集每週與懷舊遊戲相關的新訊,預定每週五出刊。 本週主要的消息包含: ‧《復活邪神2》繁體中文版發售日確認 ‧《Eschatos》將推出 Switch 版 ‧FC/NES開發技術講解影片...等其他資訊
重點貴在持之以恒,每天做,才有效果。 請自己做這些練習吧,尤其是舌肌與吞嚥的,各有四項,我每項運動後面都有刮號註明『這項運動主要是練習那邊』。 貴在持之以恒,循序漸進,別太為難自己,畢竟您早已習慣這種狀態這麼久了,嘴巴會很酸的。 通常我只會監督、教我的矯正病人做。一般病人會視情況提提。
Thumbnail
接下來第二部分我們持續討論美國總統大選如何佈局, 以及選前一週到年底的操作策略建議 分析兩位候選人政策利多/ 利空的板塊和股票
Thumbnail
🤔為什麼團長的能力是死亡筆記本? 🤔為什麼像是死亡筆記本呢? 🤨作者巧思-讓妮翁死亡合理的幾個伏筆
Thumbnail
學習如何將掃描的PDF轉換為可搜索文本,並高效管理和查找文件。探索先進的OCR技術如何提升文檔處理效率。
Thumbnail
平時都在用tesseract來辨識OCR的部分,在網路上也常常聽說easyOCR比tesseract好用,就拿之前測試的OCR素材來比較看看囉。 以下輸入同樣圖片直接測試,並非絕對誰就比較準,只單純測試數字含英文的部分。 圖片素材就是15碼(英文加數字),檔名為OCR正確結果
OCR (Optical Character Recognition) technology revolutionizes the conversion of texts from physical documents into digital data, enhancing processing
Thumbnail
Google Tesseract Config說明,程式範例實際修改示範 前言 Tesseract 的 config 檔案用於指定 OCR 引擎的設定和參數。這些參數可以影響文本識別的結果 本文將彙整常用參數調整,並呈現不同參數出現不同的辨識結果 官網Tesseract OCR參數說明連結
Thumbnail
使用Google Tesseract應用,擷取圖像的OCR並將讀取到的字元標註在原圖上 光學字元辨識功能 (Optical character recognition,光學字符辨識) 可以將影像中特徵範圍內的文本轉換為數字形式的文本。使用前必須安装Google Tesseract並更新
Thumbnail
這是我自行後製、加上繁體中文字幕的影片。 來源出自對岸史真醫師出版的這本書『口面肌功能治疗临床诊疗手册』,如無簡體中文閱讀障礙,是可以買來自行瞭解,增強戴活動式矯正裝置的動力。 不過此書的預設閱讀對象是醫護專業人員,有點艱深,所以我已經把大部分較適合當科普材料的部分,繁體中文化,作為我的口腔衛教材料
Thumbnail
作者申克博士(Sönke Ahrens) 在繁體版書籍線上交流講座中,分享 10 點使用卡片盒筆記法的重點原則,這篇文章摘要講座中 10 點原則的精華。有些內容翻成中文會失去脈絡,因此我在後面加上英文原文單字,並且加入一些個人理解的闡述。
Thumbnail
芫荽 ㄩㄢ‘ ㄙㄨㄟ - 繖形科「胡荽」的別名。也稱為「香菜」、「香荽」。 - 芫荽在台灣各地栽培普遍,台灣全島各地均有栽培。 - 邰智源很討厭的植物。 - 台南到處可見。 - 還好我會講台語。 Shopping Design 的介紹:按這裡 字體「芫荽」:按此下載
Thumbnail
[懷舊遊戲週報 2021/11-1] 懷舊遊戲週報收集每週與懷舊遊戲相關的新訊,預定每週五出刊。 本週主要的消息包含: ‧《復活邪神2》繁體中文版發售日確認 ‧《Eschatos》將推出 Switch 版 ‧FC/NES開發技術講解影片...等其他資訊
重點貴在持之以恒,每天做,才有效果。 請自己做這些練習吧,尤其是舌肌與吞嚥的,各有四項,我每項運動後面都有刮號註明『這項運動主要是練習那邊』。 貴在持之以恒,循序漸進,別太為難自己,畢竟您早已習慣這種狀態這麼久了,嘴巴會很酸的。 通常我只會監督、教我的矯正病人做。一般病人會視情況提提。