[OpenCV][Python]OCR辨識影像前處理_增加邊框

螃蟹_crab

發佈於[Python][OpenCV]學習心得筆記

2024/07/25 更新2024/07/25 發佈閱讀 5 分鐘

在tesseract-ocr辨識應用中，建議的留白邊框為10pixl，若Label列印的太剛好，沒有任何的邊框時，就會辨識不到文字。

本文將帶大家如何讓圖像增加邊框。

結果圖

示意的比較誇張，我讓邊框增加100pixl，圖片大小原為211*80。

程式碼

import cv2
import numpy as np

def add_spacing_img(img,spacing):
    # 創建黑色背景的圖像
    h,w = img.shape[:2]
    new_height = h + 2 * spacing
    new_width = w + 2 * spacing

    # 如果是彩色圖
    if len(img.shape) == 3 and img.shape[2] == 3:
        res_img = np.zeros((new_height, new_width, 3), dtype=np.uint8)
    else:
        res_img = np.zeros((new_height, new_width), dtype=np.uint8)
    
    res_img[spacing:h+spacing, spacing:w+spacing] = img

    return res_img

img = cv2.imread(f'圖片路徑')
gray_img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
new_image = add_white_spacing_img(gray_img,100)

cv2.imshow('new_image',new_image)
cv2.waitKey(0)
cv2.destroyAllWindows()

函式詳細說明

函式定義

def add_spacing_img(img, spacing):

這是函式的定義。函式名為 add_spacing_img，接受兩個參數：

img: 要處理的圖像（可以是灰度圖或彩色圖像）。
spacing: 圖像四周要添加的黑色邊框寬度。

讀取圖像尺寸

h, w = img.shape[:2]

取得圖像的高度 (h) 和寬度 (w)。

定義新圖像的尺寸

new_height = h + 2 * spacing
new_width = w + 2 * spacing

定義增加間距後的新圖像的高度和寬度。新的高度是原高度加上兩倍的間距（上下各一），新的寬度是原寬度加上兩倍的間距（左右各一）。

創建黑色背景的圖像

if len(img.shape) == 3 and img.shape[2] == 3:
        res_img = np.zeros((new_height, new_width, 3), dtype=np.uint8)
    else:
        res_img = np.zeros((new_height, new_width), dtype=np.uint8)

這段程式碼根據輸入圖像的類型創建一個黑色背景的新圖像：

如果輸入圖像是彩色圖像（有三個通道），則創建一個尺寸為 (new_height, new_width, 3) 的黑色圖像。
如果輸入圖像是灰度圖（只有一個通道），則創建一個尺寸為 (new_height, new_width) 的黑色圖像。

將原圖像放置在新圖像的中央

res_img[spacing:h+spacing, spacing:w+spacing] = img

這行程式碼將原圖像放置在新圖像的中央位置。具體做法是：

將新圖像從第 spacing 行到第 h+spacing 行，從第 spacing 列到第 w+spacing 列的區域設置為原圖像的像素值。

假設要白色邊框，只需要更動第11行~14行。

# 如果是彩色圖像
    if len(img.shape) == 3 and img.shape[2] == 3:
        res_img = np.ones((new_height, new_width, 3), dtype=np.uint8) * 255
    else:  # 如果是灰度圖像
        res_img = np.ones((new_height, new_width), dtype=np.uint8) * 255

說明

np.ones 創建一個所有元素為1的數組。對於彩色圖像，數組的形狀是 (new_height, new_width, 3)；對於灰度圖像，數組的形狀是 (new_height, new_width)。
* 255 將所有元素乘以255，這樣每個像素的值都會是255（對於8位圖像，255代表白色）。

最後提醒，增加邊框在OCR讀取前，在增加就好，在原圖增加白色或黑色邊框，若跟原圖背景差異太大，只會被OCR辨識模型視為雜訊而已。

其他tesseract相關文章

[OCR][Python]tesseract 辨識模型Fine tune

[OCR_應用]Tesseract-OCR_Config說明

[OCR_應用]Tesseract-OCR_擷取字元面積

[OCR][Python]測試tesseract與easyOCR誰比較準跟快

螃蟹_crab的沙龍[Python][OpenCV]學習心得筆記OpenCV應用

留言

螃蟹_crab的沙龍

166會員

322內容數

本業是影像辨識軟體開發，閒暇時間進修AI相關內容，將學習到的內容寫成文章分享。興趣是攝影，踏青，探索未知領域。人生就是不斷的挑戰及自我認清，希望老了躺在床上不會後悔自己什麼都沒做。

螃蟹_crab的沙龍的其他內容

2025/03/24

[Python]擷取 MP4 每一幀並以時間命名圖片（含範例影片）

在影像處理或機器學習的應用中，我們常常需要將影片逐幀擷取出來，進一步進行辨識或分析。本篇教學將示範如何使用 Python + OpenCV 來： ✅ 讀取 MP4 影片測試影片可由下方超連結下載，從file-examples.com下載 file-examples.com 是一個免費提

2025/03/24

[Python]擷取 MP4 每一幀並以時間命名圖片（含範例影片）

2024/10/11

[Python]在 OpenCV 中啟用 CUDA 加速來運行 DNN 超分辨率模型

本文將指導你如何修改現有的 OpenCV 程式碼，使其利用 CUDA 加速進行深度神經網絡（DNN）推理，如超分辨率圖像放大任務。這將顯著提升運行速度，特別是在高分辨率圖像處理中。在CMake上這選項要開，才可支援DNN模組。 CMake編譯OpenCV教學文連結 [OpenCV][Py

2024/10/11

[Python]在 OpenCV 中啟用 CUDA 加速來運行 DNN 超分辨率模型

2024/10/10

[Python]OpenCV 來啟用Cuda加速運算，比較CPU與GPU差異

OpenCV 提供了專門針對 CUDA 優化的模組，這些模組使用 cv2.cuda 命名空間，並且可以直接使用 GPU 進行加速。，cv2.cuda 模塊需要在 OpenCV 編譯時啟用 CUDA 支援才能使用。本文主要比較經過CMAKE重新編譯OpenCV使其支援Cuda，原OpenCV只支援

2024/10/10

[Python]OpenCV 來啟用Cuda加速運算，比較CPU與GPU差異

看更多

你可能也想看

阿Han的沙龍

【Python 軍火庫🧨 - EasyOCR】讓我們對圖片進行文字辨識吧

EasyOCR是一個能夠幫助你對圖片中的文字進行辨識的工具，透過進階分析，可以應用在文件掃描、自動化數據輸入、發票掃描等領域。本章節將介紹如何安裝、引用模型、進行文字辨識、以及辨識結果的分析。透過學習，你可以建立屬於自己的文字辨識系統。

#模型#GPU#文章

2024/02/20

阿Han的沙龍

【Python 軍火庫🧨 - EasyOCR】讓我們對圖片進行文字辨識吧

#模型#GPU#文章

2024/02/20

螃蟹_crab的沙龍

[OpenCV][Python]印出圖像中文字的位置及高寬

本文將說明如何去辨識出圖片文字位置及高寬。

#文字的位置及高寬#OCR#OpenCV

2024/07/24

螃蟹_crab的沙龍

[OpenCV][Python]印出圖像中文字的位置及高寬

本文將說明如何去辨識出圖片文字位置及高寬。

#文字的位置及高寬#OCR#OpenCV

2024/07/24

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》，由臺灣劇團「晃晃跨幅町」製作，本文將以從舞台符號、聲音與表演調度切入，討論海妲・蓋柏樂在父權社會結構下的困境，並結合榮格心理學與馮．法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析，理解女人何以走向精神性的操控、毀滅與死亡。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

螃蟹_crab的沙龍

[Python]使用NumPy 進行影像黑白反轉

在某些特殊情況下，需要將圖片進行黑白反轉，例如Tesseract(OCR辨識引擎)就有建議黑底白字的狀況下辨識率較高。本文將使用 NumPy 進行影像黑白反轉，並顯示反轉前後的影像。

#NumPy#Python#黑白影像反轉

2024/07/18

螃蟹_crab的沙龍

[Python]使用NumPy 進行影像黑白反轉

#NumPy#Python#黑白影像反轉

2024/07/18

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11