[OCR_應用]Tesseract-OCR_Config說明

更新於 發佈於 閱讀時間約 5 分鐘

Google Tesseract Config說明,程式範例實際修改示範

前言

Tesseract 的 config 檔案用於指定 OCR 引擎的設定和參數。這些參數可以影響文本識別的結果

本文將彙整常用參數調整,並呈現不同參數出現不同的辨識結果

官網Tesseract OCR參數說明連結



以下是一些常見的 Tesseract config 參數的說明:

tessedit_char_blacklist:指定要在辨識過程中忽略的字符。例如,-c tessedit_char_blacklist=0123456789 可以排除數字。

tessedit_char_whitelist:指定僅考慮的字符,忽略其他字符。例如,-c tessedit_char_whitelist=0123456789 只考慮數字。

oem:指定 OCR 引擎模式(OCR Engine Mode)。

常的值有:

0:OEM_TESSERACT_ONLY — 使用 Tesseract 引擎。

1:OEM_LSTM_ONLY — 使用 LSTM 引擎。

2:OEM_TESSERACT_LSTM_COMBINED — 同時使用 Tesseract 和 LSTM。


psm:指定頁面分割模式(Page Segmentation Mode)。

常見的值有:

3:PSM_AUTO — 自動分割。

6:PSM_SINGLE_COLUMN — 單列文本。

11:PSM_SPARSE_TEXT — 稀疏文本。

lang:指定要辨識的語言。例如,lang = eng 表示辨識英文。tessedit_create_pdf:設定為 1 時,可以將辨識結果輸出為 PDF 文件。user_words:指定自定義詞典文件,用於提供辨識引擎額外的詞彙。user_patterns:指定自定義模式文件,用於提供辨識引擎額外的文本模式。preserve_interword_spaces:當設定為 1 時,保留單詞間的空格。chop_enable:啟用或禁用單字切割。


— oem <engine_mode> (OCR Engine Mode):

  • 這個參數指定了 Tesseract 使用的 OCR 引擎模式,即 OCR 引擎的運行方式。
  • 例如, — oem 3 表示使用 LSTM OCR 引擎,這是 Tesseract 的一種基於長短時記憶(LSTM)的 OCR 模型。LSTM 模型通常用於處理具有複雜結構和上下文相依性的文本,可以提供更高的識別精度。
  • 其他 oem 模式值還包括 0(默認 OCR 引擎),1(LSTM OCR 引擎),2(Legacy OCR 引擎),等等。根據你的需求和應用場景,你可以選擇不同的 OCR 引擎模式。

OCR Engine modes:

0 Legacy engine only.

1 Neural nets LSTM engine only.

2 Legacy + LSTM engines.

3 Default, based on what is available.

— psm <mode> (Page Segmentation Mode):

0 只進行方向和腳本檢測(OSD)。

1 使用OSD進行自動頁面分割。

2 自動頁面分割,但不進行OSD或OCR(未實現)。

3 完全自動的頁面分割,但不進行OSD(默認值)。

4 假設是可變大小的單列文本。

5 假設是垂直對齊的單一統一文本區塊。

6 假設是單一統一的文本區塊。

7 將圖像視為單一文本行。

8 將圖像視為單一單詞。

9 將圖像視為圓形中的單一單詞。

10 將圖像視為單一字符。

11 稀疏文本。以無特定順序尋找盡可能多的文本。

12 具有OSD的稀疏文本。

13 原始行。將圖像視為單一文本行


修改的程式範例由我上一篇文章的延伸[OCR_應用]Tesseract-OCR_擷取字元面積

使用字元黑名單或白名單:

tessedit_char_whitelist:僅允許辨識指定字符。

tessedit_char_blacklist:排除指定字符。

#原參數
config = r'--oem 3 --psm 6'

未新增黑白名單前

config = r' --oem 3 --psm 7'
raw-image

設定排除指定字符: 123

config = r'-c tessedit_char_blacklist= 12345 --oem 3 --psm 6'
raw-image

設定僅允許辨識指定字符:123

config = r'-c tessedit_char_whitelist=123 --oem 3 --psm 6'

— psm <mode>

原先示範的參數為 — psm 6 ,他的解釋是假設是單一統一的文本區塊,是可以由上往下去讀取文本的,那也有其他的操作只能讀單一文本行的,例如 — psm 7

config = r' --oem 3 --psm 7'
raw-image

在不同的使用情境下,不同的psm mode都會去影響到辨識的良率,因為不同的psm分割OCR的方式有所不同

因為我們使用的樣本過於簡單,無法詮釋每一種模型,有機會在好好的每一種都來模擬一番

分享,愛心 追蹤起來. 有疑問歡迎留言提問







avatar-img
131會員
218內容數
本業是影像辨識軟體開發,閒暇時間進修AI相關內容,將學習到的內容寫成文章分享。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
螃蟹_crab的沙龍 的其他內容
使用Google Tesseract應用,擷取圖像的OCR並將讀取到的字元標註在原圖上 光學字元辨識功能 (Optical character recognition,光學字符辨識) 可以將影像中特徵範圍內的文本轉換為數字形式的文本。使用前必須安装Google Tesseract並更新
python Streamlit連動github程式碼實現YoloV8網頁版偵測物件 先致敬,YoloV8原作Github程式碼 Streamlit網頁 實現YoloV8 偵測物件 套用模型為YoloV8(YOLOv8n)最小模型,因github上傳檔案最大上限為25mb 導入圖像(搜尋街景
使用Google Tesseract應用,擷取圖像的OCR並將讀取到的字元標註在原圖上 光學字元辨識功能 (Optical character recognition,光學字符辨識) 可以將影像中特徵範圍內的文本轉換為數字形式的文本。使用前必須安装Google Tesseract並更新
python Streamlit連動github程式碼實現YoloV8網頁版偵測物件 先致敬,YoloV8原作Github程式碼 Streamlit網頁 實現YoloV8 偵測物件 套用模型為YoloV8(YOLOv8n)最小模型,因github上傳檔案最大上限為25mb 導入圖像(搜尋街景
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
既要工具强,又要價格美,甚至還得簡單好用,這樣的“數位化神器”真的存在嗎? 本文將介紹幾款各有優缺點的OCR工具,幫助你們做出選擇,找到適合自己的幫手。 FreeOCR、Adobe Acrobat OCR、pdftopdf.ai,全能型的、簡單的都包含在內!
Thumbnail
在學術研究和工作中,快速記錄口頭資訊和編輯文字資料是常見挑戰。本文介紹了錄音工具和OCR(光學文字識別)技術的應用,幫助讀者提升學習和工作效率。文中詳細介紹了多款錄音工具的特性以及OCR技術的工作原理,並提供了相關實用建議,強調如何結合這兩種工具來提升學習效果,幫助留學生更輕鬆地理解和整理課堂資訊。
Thumbnail
在數位化時代,OCR工具已成為不可或缺的一部分。無論是辦公文件的自動化處理還是個人文件的管理,OCR工具都能幫助我們高效地從掃描件或圖片中提取文字資訊。本文將分享我使用過的最好用的OCR工具,並詳細介紹其功能、使用體驗以及與其他工具的對比。
Thumbnail
在數位化時代,OCR工具成為了不可或缺的一部分。無論是辦公文件的自動化處理還是個人文件的管理,OCR工具都能幫助我們高效地從掃描件或圖片中提取文字資訊。本文將分享我使用過的最好用的OCR工具,並詳細介紹其功能、使用體驗以及與其他工具的對比。
Thumbnail
在數字化時代,PDF文件廣泛使用,但傳統處理方式顯得力不從心。本文推薦pdftopdf.ai等工具,通過OCR識別,將圖片中的文字轉化為可編輯、可搜索的文本。探討PDF文檔分析的AI工具,功能和價格。描述其用途以解決掃描件中文字無法直接搜索的困擾,提高工作效率。
Thumbnail
本文介紹如何對 Telegram 憑證監控機器人的代碼進行優化,包括新增指令、讀取變數、提高可讀性和可維護性。
在學習大語言模型的技術細節時, 弄清楚「輸入文本 Input Text」與「符元化文本 Tokenized Text」之間的差異會很方便[1]。 舉個具體的例子: 輸入文本:Hello, 你好. Obsidian is great! 符元化文本:['Hello', ',',
Thumbnail
學習如何將掃描的PDF轉換為可搜索文本,並高效管理和查找文件。探索先進的OCR技術如何提升文檔處理效率。
Thumbnail
在信息化時代,PDF文件無處不在。無論是學術研究、商業文件還是個人檔案,PDF都已成為最常見的文檔格式。然而,許多PDF文件是通過掃描紙質文檔生成的,這些文件中的文字無法直接編輯或複製。借助先進的OCR技術,使用者可以將掃描的PDF轉換為可搜索的文本,提升工作和學習效率。
Thumbnail
使用Google Tesseract應用,擷取圖像的OCR並將讀取到的字元標註在原圖上 光學字元辨識功能 (Optical character recognition,光學字符辨識) 可以將影像中特徵範圍內的文本轉換為數字形式的文本。使用前必須安装Google Tesseract並更新
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
既要工具强,又要價格美,甚至還得簡單好用,這樣的“數位化神器”真的存在嗎? 本文將介紹幾款各有優缺點的OCR工具,幫助你們做出選擇,找到適合自己的幫手。 FreeOCR、Adobe Acrobat OCR、pdftopdf.ai,全能型的、簡單的都包含在內!
Thumbnail
在學術研究和工作中,快速記錄口頭資訊和編輯文字資料是常見挑戰。本文介紹了錄音工具和OCR(光學文字識別)技術的應用,幫助讀者提升學習和工作效率。文中詳細介紹了多款錄音工具的特性以及OCR技術的工作原理,並提供了相關實用建議,強調如何結合這兩種工具來提升學習效果,幫助留學生更輕鬆地理解和整理課堂資訊。
Thumbnail
在數位化時代,OCR工具已成為不可或缺的一部分。無論是辦公文件的自動化處理還是個人文件的管理,OCR工具都能幫助我們高效地從掃描件或圖片中提取文字資訊。本文將分享我使用過的最好用的OCR工具,並詳細介紹其功能、使用體驗以及與其他工具的對比。
Thumbnail
在數位化時代,OCR工具成為了不可或缺的一部分。無論是辦公文件的自動化處理還是個人文件的管理,OCR工具都能幫助我們高效地從掃描件或圖片中提取文字資訊。本文將分享我使用過的最好用的OCR工具,並詳細介紹其功能、使用體驗以及與其他工具的對比。
Thumbnail
在數字化時代,PDF文件廣泛使用,但傳統處理方式顯得力不從心。本文推薦pdftopdf.ai等工具,通過OCR識別,將圖片中的文字轉化為可編輯、可搜索的文本。探討PDF文檔分析的AI工具,功能和價格。描述其用途以解決掃描件中文字無法直接搜索的困擾,提高工作效率。
Thumbnail
本文介紹如何對 Telegram 憑證監控機器人的代碼進行優化,包括新增指令、讀取變數、提高可讀性和可維護性。
在學習大語言模型的技術細節時, 弄清楚「輸入文本 Input Text」與「符元化文本 Tokenized Text」之間的差異會很方便[1]。 舉個具體的例子: 輸入文本:Hello, 你好. Obsidian is great! 符元化文本:['Hello', ',',
Thumbnail
學習如何將掃描的PDF轉換為可搜索文本,並高效管理和查找文件。探索先進的OCR技術如何提升文檔處理效率。
Thumbnail
在信息化時代,PDF文件無處不在。無論是學術研究、商業文件還是個人檔案,PDF都已成為最常見的文檔格式。然而,許多PDF文件是通過掃描紙質文檔生成的,這些文件中的文字無法直接編輯或複製。借助先進的OCR技術,使用者可以將掃描的PDF轉換為可搜索的文本,提升工作和學習效率。
Thumbnail
使用Google Tesseract應用,擷取圖像的OCR並將讀取到的字元標註在原圖上 光學字元辨識功能 (Optical character recognition,光學字符辨識) 可以將影像中特徵範圍內的文本轉換為數字形式的文本。使用前必須安装Google Tesseract並更新