[OCR_應用]Tesseract-OCR_Config說明

更新於 發佈於 閱讀時間約 5 分鐘

Google Tesseract Config說明,程式範例實際修改示範

前言

Tesseract 的 config 檔案用於指定 OCR 引擎的設定和參數。這些參數可以影響文本識別的結果

本文將彙整常用參數調整,並呈現不同參數出現不同的辨識結果

官網Tesseract OCR參數說明連結



以下是一些常見的 Tesseract config 參數的說明:

tessedit_char_blacklist:指定要在辨識過程中忽略的字符。例如,-c tessedit_char_blacklist=0123456789 可以排除數字。

tessedit_char_whitelist:指定僅考慮的字符,忽略其他字符。例如,-c tessedit_char_whitelist=0123456789 只考慮數字。

oem:指定 OCR 引擎模式(OCR Engine Mode)。

常的值有:

0:OEM_TESSERACT_ONLY — 使用 Tesseract 引擎。

1:OEM_LSTM_ONLY — 使用 LSTM 引擎。

2:OEM_TESSERACT_LSTM_COMBINED — 同時使用 Tesseract 和 LSTM。


psm:指定頁面分割模式(Page Segmentation Mode)。

常見的值有:

3:PSM_AUTO — 自動分割。

6:PSM_SINGLE_COLUMN — 單列文本。

11:PSM_SPARSE_TEXT — 稀疏文本。

lang:指定要辨識的語言。例如,lang = eng 表示辨識英文。tessedit_create_pdf:設定為 1 時,可以將辨識結果輸出為 PDF 文件。user_words:指定自定義詞典文件,用於提供辨識引擎額外的詞彙。user_patterns:指定自定義模式文件,用於提供辨識引擎額外的文本模式。preserve_interword_spaces:當設定為 1 時,保留單詞間的空格。chop_enable:啟用或禁用單字切割。


— oem <engine_mode> (OCR Engine Mode):

  • 這個參數指定了 Tesseract 使用的 OCR 引擎模式,即 OCR 引擎的運行方式。
  • 例如, — oem 3 表示使用 LSTM OCR 引擎,這是 Tesseract 的一種基於長短時記憶(LSTM)的 OCR 模型。LSTM 模型通常用於處理具有複雜結構和上下文相依性的文本,可以提供更高的識別精度。
  • 其他 oem 模式值還包括 0(默認 OCR 引擎),1(LSTM OCR 引擎),2(Legacy OCR 引擎),等等。根據你的需求和應用場景,你可以選擇不同的 OCR 引擎模式。

OCR Engine modes:

0 Legacy engine only.

1 Neural nets LSTM engine only.

2 Legacy + LSTM engines.

3 Default, based on what is available.

— psm <mode> (Page Segmentation Mode):

0 只進行方向和腳本檢測(OSD)。

1 使用OSD進行自動頁面分割。

2 自動頁面分割,但不進行OSD或OCR(未實現)。

3 完全自動的頁面分割,但不進行OSD(默認值)。

4 假設是可變大小的單列文本。

5 假設是垂直對齊的單一統一文本區塊。

6 假設是單一統一的文本區塊。

7 將圖像視為單一文本行。

8 將圖像視為單一單詞。

9 將圖像視為圓形中的單一單詞。

10 將圖像視為單一字符。

11 稀疏文本。以無特定順序尋找盡可能多的文本。

12 具有OSD的稀疏文本。

13 原始行。將圖像視為單一文本行


修改的程式範例由我上一篇文章的延伸[OCR_應用]Tesseract-OCR_擷取字元面積

使用字元黑名單或白名單:

tessedit_char_whitelist:僅允許辨識指定字符。

tessedit_char_blacklist:排除指定字符。

#原參數
config = r'--oem 3 --psm 6'

未新增黑白名單前

config = r' --oem 3 --psm 7'
raw-image

設定排除指定字符: 123

config = r'-c tessedit_char_blacklist= 12345 --oem 3 --psm 6'
raw-image

設定僅允許辨識指定字符:123

config = r'-c tessedit_char_whitelist=123 --oem 3 --psm 6'

— psm <mode>

原先示範的參數為 — psm 6 ,他的解釋是假設是單一統一的文本區塊,是可以由上往下去讀取文本的,那也有其他的操作只能讀單一文本行的,例如 — psm 7

config = r' --oem 3 --psm 7'
raw-image

在不同的使用情境下,不同的psm mode都會去影響到辨識的良率,因為不同的psm分割OCR的方式有所不同

因為我們使用的樣本過於簡單,無法詮釋每一種模型,有機會在好好的每一種都來模擬一番

分享,愛心 追蹤起來. 有疑問歡迎留言提問







留言
avatar-img
留言分享你的想法!
螃蟹_crab-avatar-img
發文者
2024/09/30
[OpenCV][Python]手把教如何使用Tesseract OCR辨識提及了這篇文章,趕快過去看看吧!
螃蟹_crab-avatar-img
發文者
2024/07/25
[OpenCV][Python]OCR辨識影像前處理_增加邊框提及了這篇文章,趕快過去看看吧!
avatar-img
螃蟹_crab的沙龍
143會員
253內容數
本業是影像辨識軟體開發,閒暇時間進修AI相關內容,將學習到的內容寫成文章分享。
螃蟹_crab的沙龍的其他內容
2024/06/21
微調(Fine tune)是深度學習中遷移學習的一種方法,其中預訓練模型的權重會在新數據上進行訓練。 本文主要介紹如何使用新的訓練圖檔在tesseract 辨識模型進行Fine tune 有關於安裝的部分可以參考友人的其他文章 Tesseract OCR - 繁體中文【安裝篇】 將所有資料
Thumbnail
2024/06/21
微調(Fine tune)是深度學習中遷移學習的一種方法,其中預訓練模型的權重會在新數據上進行訓練。 本文主要介紹如何使用新的訓練圖檔在tesseract 辨識模型進行Fine tune 有關於安裝的部分可以參考友人的其他文章 Tesseract OCR - 繁體中文【安裝篇】 將所有資料
Thumbnail
2024/06/01
平時都在用tesseract來辨識OCR的部分,在網路上也常常聽說easyOCR比tesseract好用,就拿之前測試的OCR素材來比較看看囉。 以下輸入同樣圖片直接測試,並非絕對誰就比較準,只單純測試數字含英文的部分。 圖片素材就是15碼(英文加數字),檔名為OCR正確結果
Thumbnail
2024/06/01
平時都在用tesseract來辨識OCR的部分,在網路上也常常聽說easyOCR比tesseract好用,就拿之前測試的OCR素材來比較看看囉。 以下輸入同樣圖片直接測試,並非絕對誰就比較準,只單純測試數字含英文的部分。 圖片素材就是15碼(英文加數字),檔名為OCR正確結果
Thumbnail
2024/05/26
本文將展示使用不同激活函數(ReLU 和 Sigmoid)的效果。 一個簡單的多層感知器(MLP)模型來對 Fashion-MNIST 資料集進行分類。 函數定義 Sigmoid 函數 Sigmoid 函數將輸入壓縮到 0到 1 之間: 特性: 輸出範圍是 (0,1)(0, 1)(0,1
Thumbnail
2024/05/26
本文將展示使用不同激活函數(ReLU 和 Sigmoid)的效果。 一個簡單的多層感知器(MLP)模型來對 Fashion-MNIST 資料集進行分類。 函數定義 Sigmoid 函數 Sigmoid 函數將輸入壓縮到 0到 1 之間: 特性: 輸出範圍是 (0,1)(0, 1)(0,1
Thumbnail
看更多
你可能也想看
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
在tesseract-ocr辨識應用中,建議的留白邊框為10pixl,若Label列印的太剛好,沒有任何的邊框時,就會辨識不到文字。 本文將帶大家如何讓圖像增加邊框。 結果圖 示意的比較誇張,我讓邊框增加100pixl,圖片大小原為211*80。
Thumbnail
在tesseract-ocr辨識應用中,建議的留白邊框為10pixl,若Label列印的太剛好,沒有任何的邊框時,就會辨識不到文字。 本文將帶大家如何讓圖像增加邊框。 結果圖 示意的比較誇張,我讓邊框增加100pixl,圖片大小原為211*80。
Thumbnail
本文將說明如何去辨識出圖片文字​位置及高寬。
Thumbnail
本文將說明如何去辨識出圖片文字​位置及高寬。
Thumbnail
在文字辨識中,適當的增加一文字彼此間的間隔是有幫助於辨識的,原因在大多數OCR引擎在處理字符時會依賴空白區域來區分不同的字符。如果字符之間的間隔過小,OCR引擎可能會將相鄰的字符誤認為一個單一的字符或難以正確切割字符。增加間隔可以幫助OCR引擎更準確地識別和切割每個字符。 本文說明如何增加OCR間
Thumbnail
在文字辨識中,適當的增加一文字彼此間的間隔是有幫助於辨識的,原因在大多數OCR引擎在處理字符時會依賴空白區域來區分不同的字符。如果字符之間的間隔過小,OCR引擎可能會將相鄰的字符誤認為一個單一的字符或難以正確切割字符。增加間隔可以幫助OCR引擎更準確地識別和切割每個字符。 本文說明如何增加OCR間
Thumbnail
微調(Fine tune)是深度學習中遷移學習的一種方法,其中預訓練模型的權重會在新數據上進行訓練。 本文主要介紹如何使用新的訓練圖檔在tesseract 辨識模型進行Fine tune 有關於安裝的部分可以參考友人的其他文章 Tesseract OCR - 繁體中文【安裝篇】 將所有資料
Thumbnail
微調(Fine tune)是深度學習中遷移學習的一種方法,其中預訓練模型的權重會在新數據上進行訓練。 本文主要介紹如何使用新的訓練圖檔在tesseract 辨識模型進行Fine tune 有關於安裝的部分可以參考友人的其他文章 Tesseract OCR - 繁體中文【安裝篇】 將所有資料
Thumbnail
學習如何將掃描的PDF轉換為可搜索文本,並高效管理和查找文件。探索先進的OCR技術如何提升文檔處理效率。
Thumbnail
學習如何將掃描的PDF轉換為可搜索文本,並高效管理和查找文件。探索先進的OCR技術如何提升文檔處理效率。
Thumbnail
在本文中,我們將瞭解如何將掃描的PDF轉換為可搜索文本,並高效管理和查找文件。探索先進的OCR技術如何提升文檔處理效率。
Thumbnail
在本文中,我們將瞭解如何將掃描的PDF轉換為可搜索文本,並高效管理和查找文件。探索先進的OCR技術如何提升文檔處理效率。
Thumbnail
平時都在用tesseract來辨識OCR的部分,在網路上也常常聽說easyOCR比tesseract好用,就拿之前測試的OCR素材來比較看看囉。 以下輸入同樣圖片直接測試,並非絕對誰就比較準,只單純測試數字含英文的部分。 圖片素材就是15碼(英文加數字),檔名為OCR正確結果
Thumbnail
平時都在用tesseract來辨識OCR的部分,在網路上也常常聽說easyOCR比tesseract好用,就拿之前測試的OCR素材來比較看看囉。 以下輸入同樣圖片直接測試,並非絕對誰就比較準,只單純測試數字含英文的部分。 圖片素材就是15碼(英文加數字),檔名為OCR正確結果
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News