[OCR][Python]tesseract 辨識模型Fine tune

螃蟹_crab

2024/06/21閱讀時間約 4 分鐘

微調(Fine tune)是深度學習中遷移學習的一種方法，其中預訓練模型的權重會在新數據上進行訓練。

本文主要介紹如何使用新的訓練圖檔在tesseract 辨識模型進行Fine tune

有關於安裝的部分可以參考友人的其他文章

Tesseract OCR - 繁體中文【安裝篇】

將所有資料都放在同一資料夾，在用那資料夾 cmd開始工作，環境變數Tesseract資料夾要新增，才可以使用Tesseract指令喔。

使用版本：tesseract v5.3.1.20230401

1.合併圖檔

使用jTessBoxEditor 工具來合併圖檔，可參考這篇文章介紹jTessBoxEditor應用

2.產生box資料 .box

指令：

ocr_1.tif : 圖檔名稱 

ocr_1 : 要產生的.box名稱

-l eng_ocr --oem 3 --psm 7 : 指定tesseract的辨識模型，搜尋引擎，頁面分割模式

batch.nochop makebox：產生產生box資料的指令

tesseract ocr_1.tif ocr_1 -l eng_ocr --oem 3 --psm 7 batch.nochop makebox

產生.box檔案

3.產生模型訓練檔 .lstm

指令:

tesseract ocr_1.tif  ocr_1 -l eng_ocr --psm 7 lstm.train

產生ocr_1訓練檔

4.提取要微調的模型，產生模型訓練檔 eng_ocr.lstm

指令:

-e 可從.traineddata中擷取出lstm檔

combine_tessdata -e eng_ocr.traineddata eng_ocr.lstm

提取要微調的模型

5.新建文件檔 (指定訓練檔路徑) .txt

輸入指定的訓練檔名稱，新的訓練集

新建文件檔

6.模型訓練

參數名稱說明：

eng_ocr.lstm : 指定用這個模型繼續訓練

eng_ocr.traineddata : 指定用這個模型的資料繼續訓練

eng_ocr.training_files.txt : 新增要訓練的資料文件路徑

0.01 : 錯誤率低於0.01 就停止訓練

指令

Lstmtraining --model_output="train"  --continue_from="eng_ocr.lstm" --traineddata="eng_ocr.traineddata" --train_listfile="eng_ocr.training_files.txt" --target_error_rate=0.01

訓練結果

訓練完產生train_checkpoint

7.模型輸出

複製eng_ocr.traineddata 另外立名新名稱eng_ocr_1.traineddata，最後指令輸入完，eng_ocr_1.traineddata就是訓練好的新模型了。

指令

--continue_from 輸入剛剛訓練完的checkpoint檔案

--traineddata 輸入要覆蓋的模型名稱
--model_output

lstmtraining --stop_training --continue_from="train_checkpoint" --traineddata="eng_ocr.traineddata" --model_output="eng_ocr_1.traineddata"

輸出模型

大功告成模型傳到Tesseract-OCR\tessdata目錄中就可以使用囉。

更改lang="eng_ocr_1"，就可以使用新的模型囉

pytesseract.image_to_boxes(new_image, lang="eng_ocr_1", config=config)

參考文獻

螃蟹_crab的沙龍AI深度學習筆記視覺辨識

螃蟹_crab的沙龍

112會員

172Content count

本業是影像辨識軟體開發，閒暇時間進修AI相關內容，將學習到的內容寫成文章分享。

留言0

查看全部

發表第一個留言支持創作者！

螃蟹_crab的沙龍的其他內容

[OCR][Python]測試tesseract與easyOCR誰比較準跟快

平時都在用tesseract來辨識OCR的部分，在網路上也常常聽說easyOCR比tesseract好用，就拿之前測試的OCR素材來比較看看囉。以下輸入同樣圖片直接測試，並非絕對誰就比較準，只單純測試數字含英文的部分。圖片素材就是15碼(英文加數字)，檔名為OCR正確結果

#Python #OpenCV #tesseract

[深度學習][Python]多層感知器（MLP）模型使用不同激活函數（ReLU 和 Sigmoid）的效果

本文將展示使用不同激活函數（ReLU 和 Sigmoid）的效果。一個簡單的多層感知器（MLP）模型來對 Fashion-MNIST 資料集進行分類。函數定義 Sigmoid 函數 Sigmoid 函數將輸入壓縮到 0到 1 之間：特性：輸出範圍是 (0,1)(0, 1)(0,1

#ReLU和Sigmoid #多層感知器 #MLP

[深度學習][Python]使用簡單的神經網路來訓練辨識fashion_mnist資料

本文主要介紹神經網路訓練辨識的過程，利用fashion_mnist及簡單的神經網路來進行分類。使用只有兩層的神經網路來訓練辨識fashion_mnist資料。

#fashion #神經網路 #深度學習

[Python][人臉辨識]應用Deepface辨識臉部情緒

本文主要應用deepface的正面（frontal）人臉檢測的預設模型，使用analyze 函數，用於分析一張人臉圖像的情感（emotion）。在Colab上實現，若用其他平台需稍微修改程式碼。 Deepface Deepface是一個輕量級的Python人臉辨識和臉部屬性分析

#人臉辨識 #人臉辨識應用 #Deepface

[OCR_應用]Tesseract-OCR_Config說明

Google Tesseract Config說明，程式範例實際修改示範前言 Tesseract 的 config 檔案用於指定 OCR 引擎的設定和參數。這些參數可以影響文本識別的結果本文將彙整常用參數調整，並呈現不同參數出現不同的辨識結果官網Tesseract OCR參數說明連結

#OCR應用 #Tesseract #pytesseract

[OCR_應用]Tesseract-OCR_擷取字元面積

使用Google Tesseract應用，擷取圖像的OCR並將讀取到的字元標註在原圖上光學字元辨識功能 (Optical character recognition，光學字符辨識）可以將影像中特徵範圍內的文本轉換為數字形式的文本。使用前必須安装Google Tesseract並更新

#OCR應用 #Tesseract #OCR長寬面積

[OCR][Python]測試tesseract與easyOCR誰比較準跟快

#Python #OpenCV #tesseract

[深度學習][Python]多層感知器（MLP）模型使用不同激活函數（ReLU 和 Sigmoid）的效果

#ReLU和Sigmoid #多層感知器 #MLP

[深度學習][Python]使用簡單的神經網路來訓練辨識fashion_mnist資料

本文主要介紹神經網路訓練辨識的過程，利用fashion_mnist及簡單的神經網路來進行分類。使用只有兩層的神經網路來訓練辨識fashion_mnist資料。

#fashion #神經網路 #深度學習

操盤手の交易週報與展望(Sep.W2)

1.加權指數與櫃買指數週五的加權指數在非農就業數據開出來後，雖稍微低於預期，但指數仍向上噴出，在美股開盤後於21500形成一個爆量假突破後急轉直下，就一路收至最低。台股方面走勢需觀察週一在斷頭潮出現後，週二或週三開始有無買單進場支撐，在沒有明確的反轉訊號形成前，小夥伴盡量不要貿然抄底，或是追空

方格子 vocus 官方沙龍

2024/08/27

「相簿裡最捨不得刪的 N 張照片！」：完成任務抽富士即可拍！

近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎？新版式整體視覺上「更加凸顯圖片」，為了搭配這次的更新，我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務，還有機會獲得富士即可拍，讓你的美好回憶都可以用即可拍珍藏！

#相簿裡最捨不得刪的照片

leqi.ai

2024/06/11

如何利用OCR技術提高PDF文檔處理效率

學習如何將掃描的PDF轉換為可搜索文本，並高效管理和查找文件。探索先進的OCR技術如何提升文檔處理效率。

#學習 #學術 #電子

Aniceee

2024/05/14

What is OCR? Discover the Advantages and Applications of OCR

OCR (Optical Character Recognition) technology revolutionizes the conversion of texts from physical documents into digital data, enhancing processing

Aniceee

2024/05/05

光學字元辨識（OCR）技術：提升數位轉型的關鍵利器

什麼是 OCR 光學字元辨識技術？它是當今數位時代中不可或缺的重要工具之一，能夠將紙本文件、圖片或 PDF 中的文字快速、準確地轉換成數位檔案，從而極大地提升了資料處理效率，成為各行各業數位轉型的關鍵利器。不僅如此，OCR 技術還能有效減少人為錯誤，幫助企業提升整體營運效率，從而在市場競爭中取得優勢

#OCR #科技