單純比較單行文字的結果
PaddleOCR 辨識率及速度就高好多,資料集為英文加數字

詳細比較結果
PaddleOCR只有少數O跟0會誤判

1. Tesseract 的 AI 模型
- 版本差異
- Tesseract 3 以前:主要是傳統 OCR(字元切割 → 模板匹配/分類器)。
- Tesseract 4:引入 LSTM (Long Short-Term Memory) 序列模型,用於行文字(line-based)辨識。這是 Tesseract 的核心「AI」部分。
- Tesseract 5:延續 LSTM-based recognizer,支援更多語言模型與訓練改進,但整體架構仍以 LSTM 為主。
- Pipeline 概念
- Page segmentation(傳統 rule-based 演算法 + connected components)
- Line extraction
- LSTM recognizer(針對字元序列)
- 語言模型(字典 / n-gram)後處理
👉 可以說 Tesseract 用的 AI 是 LSTM RNN 模型(單層/多層 LSTM),而不是 CNN 或 Transformer。
2. PaddleOCR 的 AI 模型
PaddleOCR 屬於 深度學習全家桶,模型架構比 Tesseract 現代化,包含 檢測 + 辨識 + 後處理。
- 檢測 (Text Detection)
- DBNet (Differentiable Binarization)、EAST、SAST 等
- 這些是基於 CNN (卷積神經網路) + segmentation 的檢測網路
- 作用:找到圖片中「文字區域」的 bounding boxes / polygons
- 方向分類 (Direction Classification)
- 小型 CNN,用來判斷文字是否旋轉 / 上下顛倒
- 辨識 (Text Recognition)
- 早期版本:CRNN (CNN + RNN + CTC)
- 新版本(PP-OCR v3/v4): SVTR (Scene Text Vision Transformer) → 基於 Transformer 架構 backbone: MobileNetV3 / ResNet / LCNet seq2seq decoding: CTC 或 Attention-based
- 可以說 PaddleOCR 從 CNN+RNN 演進到 CNN+Transformer 架構
- 後處理
- 語言建模 / 字典比對(但不像 Tesseract 那麼依賴字典)
👉 PaddleOCR 用的是 CNN + Transformer (SVTR) 的現代化 OCR 模型組合,而 Tesseract 仍是 LSTM-based recognizer。

4. 實務影響
- PaddleOCR
- 更擅長 扭曲、場景文字、非規則字型
- 適合 複雜影像(如街景、招牌、表格)
- 可以持續進化,因為 backbone 可以換成更強大的 Transformer
- Tesseract
- LSTM 對於 規整的掃描文檔 已足夠
- 對雜訊、變形、彎曲字表現差
- 模型演進空間有限(仍停留在 LSTM,而不是 CNN/Transformer)












