Tesseract OCR - 繁體中文【訓練篇】

閱讀時間約 7 分鐘
GitHub
Tesseract OCRtesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository) (github.com)
Tesseract User ManualTesseract User Manual | tessdoc (tesseract-ocr.github.io)
How to train LSTM Tesseracttessdoc/TrainingTesseract-5.md at main ·tesseract-ocr/tessdoc (github.com)
  • 作業系統:win10
  • 版本訊息-命令提示字元(CMD)
C:\Users\user>tesseract --version
tesseract v5.0.1.20220118
leptonica-1.78.0
libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.3) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0
Found AVX2
Found AVX
Found FMA
Found SSE4.1
Found libarchive 3.5.0 zlib/1.2.11 liblzma/5.2.3 bz2lib/1.0.6 liblz4/1.7.5 libzstd/1.4.5
Found libcurl/7.77.0-DEV Schannel zlib/1.2.11 zstd/1.4.5 libidn2/2.0.4 nghttp2/1.31.0

一、準備資料夾 Git Clone

1、下載GIT:Git (git-scm.com)

git(Download for Wimdows)

2、tesstrainsh-win

  • 桌面右鍵(Git Bash Here)開啟Bash,輸入下面指令
git clone https://github.com/livezingy/tesstrainsh-win.git
備註:shift+INS(位置在9宮格數字鍵的0) 可以貼上

二、準備資料

1、fonts(範例為新細明體)

尋找想訓練的字體(.ttf)檔,放入fonts資料夾中
  • 若字體檔案是(.tcc)檔,可以直接手動變更副檔名
C:\Windows\Fonts
新細明體
  • 修改字體名稱(改成英文)
  由於等等在讀字型名稱時,中文的名稱會出現亂碼(目前還不確定原因),我有嘗試將Bash設定UTF-8但是沒有效果。
字型名稱:細明體
  • 字型編輯器
  底下參考資料附上FontForge的youtube教學影片
FontForge(windows):FontForge on Windows
Step1、Element
Step2、Font Info...
Step3、TFF Names
將新細明體改成英文(PMingLiU)
Step4、File
Step5、Generate Fonts...
Step6、TrueType(取消勾選Vaildata Before Saving)
Step7、Generate

2、langdata_lstm

  • 刪除原先的langdata_lstm,重新下載
  • 資料夾中點選右鍵(Git Bash Here)開啟Bash,輸入下面指令
git clone https://github.com/tesseract-ocr/langdata_lstm.git
備註:shift+INS(位置在9宮格數字鍵的0) 可以貼上

3、tessdata

下載chi_tra.traineddata放入tessdata資料夾中
將configs資料夾複製放入tessdata資料夾中
C:\Program Files\Tesseract-OCR\tessdata

三、修改tesstrainDone.sh

  使用notepad++開啟tesstrainDone.sh修改內容
  • 【CTRL+F】將eng取代為chi_tra
  • 【CTRL+F】將Impact Condensed取代為PMingLiU
  • 【CTRL+F】將Impact取代為PMingLiU
  tesstrainsh-win\langdata_lstm\chi_tra,中的所有文件使用notepad++開啟,並且修改換行格式
  • 編輯
  • 換行格式(E)
  • UNIX格式(LF)

四、執行tesstrainDone.sh

  在tesstrainsh-win中右鍵(Git Bash Here)開啟Bash,輸入下面指令
sh tesstrainDone.sh
  • 訓練結束後,會出現下面訊息
Finished! Selected model with minimal training error rate (BCER) = 2.639
Loaded file output/impact_checkpoint, unpacking...
  • tesstrainsh-win\output,會產生PMingLiU.traineddata

錯誤訊息

  • 如果不能讀取字體名稱,則使用報錯時系統建議的字體名稱
Could not find font named 'Microsoft JhengHei UI Light'.
Pango suggested font 'Microsoft JhengHei UI weight=290'.
報錯顯示:Microsoft JhengHei UI Light 建議改為 Microsoft JhengHei UI weight=290

五、測試

  將PMingLiU.traineddata放入下面路徑中
C:\Program Files\Tesseract-OCR\tessdata
  挑選一張具有文字的圖片(.PNG),於cmd中輸入指令
tesseract XXX.png result_old -l chi_tra
tesseract XXX.png result_new -l output

參考資料

為什麼會看到廣告
6會員
46內容數
這是新手寫給新手的學習程式語言基礎教學筆記,內容會以C++為主
留言0
查看全部
發表第一個留言支持創作者!
匿名李的沙龍 的其他內容
Vector (C++)
閱讀時間約 5 分鐘
三角函數 (C++)
閱讀時間約 1 分鐘
承諾升級與沉沒成本
閱讀時間約 1 分鐘
營收成長率(YOY、QOQ、MOM)
閱讀時間約 1 分鐘
你可能也想看
如何利用OCR技術提高PDF文檔處理效率學習如何將掃描的PDF轉換為可搜索文本,並高效管理和查找文件。探索先進的OCR技術如何提升文檔處理效率。
Thumbnail
avatar
leqi.ai
2024-06-11
[OCR][Python]測試tesseract與easyOCR誰比較準跟快平時都在用tesseract來辨識OCR的部分,在網路上也常常聽說easyOCR比tesseract好用,就拿之前測試的OCR素材來比較看看囉。 以下輸入同樣圖片直接測試,並非絕對誰就比較準,只單純測試數字含英文的部分。 圖片素材就是15碼(英文加數字),檔名為OCR正確結果
Thumbnail
avatar
螃蟹_crab
2024-06-01
What is OCR? Discover the Advantages and Applications of OCROCR (Optical Character Recognition) technology revolutionizes the conversion of texts from physical documents into digital data, enhancing processing
avatar
Anice H.
2024-05-14
[OCR_應用]Tesseract-OCR_Config說明Google Tesseract Config說明,程式範例實際修改示範 前言 Tesseract 的 config 檔案用於指定 OCR 引擎的設定和參數。這些參數可以影響文本識別的結果 本文將彙整常用參數調整,並呈現不同參數出現不同的辨識結果 官網Tesseract OCR參數說明連結
Thumbnail
avatar
螃蟹_crab
2024-01-06
[OCR_應用]Tesseract-OCR_擷取字元面積使用Google Tesseract應用,擷取圖像的OCR並將讀取到的字元標註在原圖上 光學字元辨識功能 (Optical character recognition,光學字符辨識) 可以將影像中特徵範圍內的文本轉換為數字形式的文本。使用前必須安装Google Tesseract並更新
Thumbnail
avatar
螃蟹_crab
2024-01-06
牙科口腔肌功能訓練---史真醫師繁體中文字幕版總表(20個動作)這是我自行後製、加上繁體中文字幕的影片。 來源出自對岸史真醫師出版的這本書『口面肌功能治疗临床诊疗手册』,如無簡體中文閱讀障礙,是可以買來自行瞭解,增強戴活動式矯正裝置的動力。 不過此書的預設閱讀對象是醫護專業人員,有點艱深,所以我已經把大部分較適合當科普材料的部分,繁體中文化,作為我的口腔衛教材料
avatar
黃邦定
2022-11-24
《卡片盒筆記法》繁體中文線上交流講座-10 點作者親述的重要卡片盒筆記法使用原則作者申克博士(Sönke Ahrens) 在繁體版書籍線上交流講座中,分享 10 點使用卡片盒筆記法的重點原則,這篇文章摘要講座中 10 點原則的精華。有些內容翻成中文會失去脈絡,因此我在後面加上英文原文單字,並且加入一些個人理解的闡述。
Thumbnail
avatar
朱騏
2022-06-06
阿姨時代:繁體中文的新字體,差點唸不出來 Day 47 / 365 芫荽 ㄩㄢ‘ ㄙㄨㄟ - 繖形科「胡荽」的別名。也稱為「香菜」、「香荽」。 - 芫荽在台灣各地栽培普遍,台灣全島各地均有栽培。 - 邰智源很討厭的植物。 - 台南到處可見。 - 還好我會講台語。 Shopping Design 的介紹:按這裡 字體「芫荽」:按此下載
Thumbnail
avatar
吳姓主筆
2022-02-16
[懷舊遊戲週報 2021/11-1]《復活邪神2》繁體中文版發售日確認等[懷舊遊戲週報 2021/11-1] 懷舊遊戲週報收集每週與懷舊遊戲相關的新訊,預定每週五出刊。 本週主要的消息包含: ‧《復活邪神2》繁體中文版發售日確認 ‧《Eschatos》將推出 Switch 版 ‧FC/NES開發技術講解影片...等其他資訊
Thumbnail
avatar
低分少年
2021-11-05
MRC肌肉訓練視頻繁體中文字幕版---20.按摩頸部訓練重點貴在持之以恒,每天做,才有效果。 請自己做這些練習吧,尤其是舌肌與吞嚥的,各有四項,我每項運動後面都有刮號註明『這項運動主要是練習那邊』。 貴在持之以恒,循序漸進,別太為難自己,畢竟您早已習慣這種狀態這麼久了,嘴巴會很酸的。 通常我只會監督、教我的矯正病人做。一般病人會視情況提提。
avatar
黃邦定
2021-08-19