付費限定

[Python]Tesseract 5 與PaddleOCR v5比較

螃蟹_crab

發佈於[Python][OpenCV]學習心得筆記

2025/09/24 更新2025/09/24 發佈閱讀 22 分鐘

單純比較單行文字的結果

PaddleOCR 辨識率及速度就高好多，資料集為英文加數字

詳細比較結果

PaddleOCR只有少數O跟0會誤判

1. Tesseract 的 AI 模型

版本差異
- Tesseract 3 以前：主要是傳統 OCR（字元切割 → 模板匹配/分類器）。
- Tesseract 4：引入 LSTM (Long Short-Term Memory) 序列模型，用於行文字（line-based）辨識。這是 Tesseract 的核心「AI」部分。
- Tesseract 5：延續 LSTM-based recognizer，支援更多語言模型與訓練改進，但整體架構仍以 LSTM 為主。
Pipeline 概念
1. Page segmentation（傳統 rule-based 演算法 + connected components）
2. Line extraction
3. LSTM recognizer（針對字元序列）
4. 語言模型（字典 / n-gram）後處理

👉 可以說 Tesseract 用的 AI 是 LSTM RNN 模型（單層/多層 LSTM），而不是 CNN 或 Transformer。

2. PaddleOCR 的 AI 模型

PaddleOCR 屬於 深度學習全家桶，模型架構比 Tesseract 現代化，包含 檢測 + 辨識 + 後處理。

檢測 (Text Detection)
- DBNet (Differentiable Binarization)、EAST、SAST 等
- 這些是基於 CNN (卷積神經網路) + segmentation 的檢測網路
- 作用：找到圖片中「文字區域」的 bounding boxes / polygons
方向分類 (Direction Classification)
- 小型 CNN，用來判斷文字是否旋轉 / 上下顛倒
辨識 (Text Recognition)
- 早期版本：CRNN (CNN + RNN + CTC)
- 新版本（PP-OCR v3/v4）： SVTR (Scene Text Vision Transformer) → 基於 Transformer 架構 backbone: MobileNetV3 / ResNet / LCNet seq2seq decoding: CTC 或 Attention-based
- 可以說 PaddleOCR 從 CNN+RNN 演進到 CNN+Transformer 架構
後處理
- 語言建模 / 字典比對（但不像 Tesseract 那麼依賴字典）

👉 PaddleOCR 用的是 CNN + Transformer (SVTR) 的現代化 OCR 模型組合，而 Tesseract 仍是 LSTM-based recognizer。

4. 實務影響

PaddleOCR
- 更擅長扭曲、場景文字、非規則字型
- 適合複雜影像（如街景、招牌、表格）
- 可以持續進化，因為 backbone 可以換成更強大的 Transformer
Tesseract
- LSTM 對於規整的掃描文檔已足夠
- 對雜訊、變形、彎曲字表現差
- 模型演進空間有限（仍停留在 LSTM，而不是 CNN/Transformer）

以行動支持創作者！付費即可解鎖

本篇內容共 8483 字、0 則留言，僅發佈於[Python][OpenCV]學習心得筆記你目前無法檢視以下內容，可能因為尚未登入，或沒有該房間的查看權限。

螃蟹_crab的沙龍[Python][OpenCV]學習心得筆記AOI開發應用

留言

螃蟹_crab的沙龍

163會員

320內容數

本業是影像辨識軟體開發，閒暇時間進修AI相關內容，將學習到的內容寫成文章分享。興趣是攝影，踏青，探索未知領域。人生就是不斷的挑戰及自我認清，希望老了躺在床上不會後悔自己什麼都沒做。

螃蟹_crab的沙龍的其他內容

2025/06/20

[Python]偵測線寬來判斷有無輕微斷字

在工業視覺、文字辨識、或醫學影像中，我們常常需要對物件的線條進行寬度一致性分析。本篇文章將深入解析一段實作程式碼，這段程式會針對輸入的二值影像區塊，執行：骨架化（Skeletonization）距離轉換（Distance Transform）線寬統計分析（Mean, Std, CV 等

2025/06/20

[Python]偵測線寬來判斷有無輕微斷字

2025/04/01

[Python][OpenCV]斷字檢測：基於文字端點距離的檢測方法

1. 概述在光學字符識別（OCR）過程中，常見的問題之一是「斷字」，即原本應為一個完整字符的部分被錯誤地分割成兩個或多個獨立的字符。這通常發生在掃描文件、圖像降噪或影像二值化處理後。本篇文章將介紹一種基於骨架化端點距離分析的斷字檢測方法，並提供完整的 Python 實作。 2. 斷字檢測的

2025/04/01

[Python][OpenCV]斷字檢測：基於文字端點距離的檢測方法

2025/03/13

[Python][OpenCV]螺絲鎖附間距檢測

本教學將介紹如何使用 OpenCV 來檢測螺絲的鎖附間距，並提供完整的 Python 程式碼來實作這項功能。 🔹 1. 設計目標使用二值化處理與形態學運算來強化影像計算螺絲之間的間距視覺化結果，標記最大間距並顯示數值 🔹 2. 測試用螺絲影像 🔹 3.

2025/03/13

[Python][OpenCV]螺絲鎖附間距檢測

看更多

你可能也想看

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇：帕拉贊諾夫的十段殘篇》，如何以十段殘篇，結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭，探討藝術在儀式消失的現代社會如何承接意義，並展現不羈的自由靈魂。

#釀電影#釀評論#藝術評論

2026/02/11

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

#釀電影#釀評論#藝術評論

2026/02/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11