Tesseract OCR - 繁體中文【簡易識別篇】

更新於 2025/02/28發佈於 2022/02/28閱讀時間約 5 分鐘

GitHub

Tesseract OCR：tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository) (github.com)

Tesseract User Manual：Tesseract User Manual | tessdoc (tesseract-ocr.github.io)

How to train LSTM Tesseract：tessdoc/TrainingTesseract-5.md at main ·tesseract-ocr/tessdoc (github.com)

作業系統：win10
版本訊息-命令提示字元(CMD)

C:\Users\user>tesseract --version
tesseract v5.0.1.20220118
leptonica-1.78.0
libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.3) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0
Found AVX2
Found AVX
Found FMA
Found SSE4.1
Found libarchive 3.5.0 zlib/1.2.11 liblzma/5.2.3 bz2lib/1.0.6 liblz4/1.7.5 libzstd/1.4.5
Found libcurl/7.77.0-DEV Schannel zlib/1.2.11 zstd/1.4.5 libidn2/2.0.4 nghttp2/1.31.

一、簡單OCR識別

tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]

1、開啟命令提示字元(cmd)，進入到要識別的圖片的路徑下

cd 圖片路徑

2、tesseract 【預識別圖片之名稱】【生成的結果文件的名稱】-l【字庫】　

-l :選擇輸入語言/ 預設是英文 default “eng”

tesseract test.jpg result -l chi_tra

3、產生result.txt文件

二、使用一種語言

-l LANG

LANG是三個英文字母組成的代表各種語言
可以在命令提示字元輸入tesseract --list-langs來查看目前有什麼語言可以選擇

三、使用多種語言

-l LANG[+LANG]

舉例(繁體中文+英文)：tesseract test.jpg result -l chi_tra+eng
根據語言的順序，輸出可能會有所不同例如：chi_tra+eng 和 eng+chi_tra

tesseract使用方式

Usage

命令提示字元(cmd)：
tesseract --help
tesseract --help-extra
tesseract --version
tesseract --list-langs

tesseract imagename outputbase[-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]

使用不同的頁面分割模式

Page segmentation modes

tesseract test.jpg result -psm 6 -l chi_tra

0 僅限方向和腳本檢測 (OSD)。

1 帶有 OSD 的自動頁面分割。

2 自動頁面分割，但沒有 OSD 或 OCR。

3 全自動分頁，但無OSD。（默認）

4 假設有一列大小可變的文本。

5 假設有一個統一的垂直對齊文本塊。

6 假設有一個統一的文本塊。(網路上教學常用)

7 將圖像視為單個文本行。

8 將圖像視為一個詞。

9 將圖像視為圓圈中的單個單詞。

10 將圖像視為單個字符。

OCR 引擎

OCR Engine modes

tesseract test.jpg result -oem 1 -l chi_tra

0 Legacy engine only.

1 Neural nets LSTM engine only.

2 Legacy + LSTM engines.

3 Default, based on what is available.

參考資料

Command Line Usage：Command Line Usage | tessdoc (tesseract-ocr.github.io)

#Tesseract

#OCR

#光學字元辨識

留言

留言分享你的想法！

匿名李的沙龍

7會員

46內容數

這是新手寫給新手的學習程式語言基礎教學筆記，內容會以C++為主

匿名李的沙龍的其他內容

2022/08/25

Python新手學習0

Python安裝、外部程式包安裝(pip install xxx)、Hello World 【安裝Python】 Visual Studio Code-Download 進入vscode(延伸模組) 安裝中文介面(輸入ch搜尋) 安裝搜尋命令提示字元命令提示字元打python 創建檔案

2022/08/25

Python新手學習0

2022/08/19

雲端方案統計

Google、OneDrive、icloud 鑒於最近Google教育版雲端大開殺戒，來統計一下雲端費用。

2022/08/19

雲端方案統計

Google、OneDrive、icloud 鑒於最近Google教育版雲端大開殺戒，來統計一下雲端費用。

2022/04/01

Visual Studio Code 快捷鍵

Visual Studio Code Key Bindings

2022/04/01

Visual Studio Code 快捷鍵

Visual Studio Code Key Bindings

看更多

你可能也想看

螃蟹_crab的沙龍

[Python] OCR Tesseract 5 Fine tune訓練完整教學

Tesseract 是一個開源的光學字符識別 (OCR) 引擎，可通過自定義訓練來改進對特定字體或語言的識別。以下是一份基於 tesstrain 工具，並針對 Windows CMD 的完整 Tesseract 5 訓練教學。將利用官方提供的ocrd-testset.zip來做示範前置

#python#tesseract5訓練問題#Tesseract5微調訓練

2025/01/01

螃蟹_crab的沙龍

[Python] OCR Tesseract 5 Fine tune訓練完整教學

#python#tesseract5訓練問題#Tesseract5微調訓練

2025/01/01

螃蟹_crab的沙龍

[OpenCV][Python]手把教如何使用Tesseract OCR辨識

以下是如何使用 Tesseract OCR 來辨識圖像中的文字的教學。涵蓋了安裝 Tesseract、基本使用方法，以及如何在 Python 中進行整合。 1. 安裝 Tesseract 首先，需要安裝 Tesseract OCR 工具。這裡提供針對 Windows、macOS 和 Linu

#TesseractOCR#OpenCV#Tesseract

2024/09/30

螃蟹_crab的沙龍

[OpenCV][Python]手把教如何使用Tesseract OCR辨識

#TesseractOCR#OpenCV#Tesseract

2024/09/30

螃蟹_crab的沙龍

[OpenCV][Python]OCR辨識影像前處理_增加邊框

在tesseract-ocr辨識應用中，建議的留白邊框為10pixl，若Label列印的太剛好，沒有任何的邊框時，就會辨識不到文字。本文將帶大家如何讓圖像增加邊框。結果圖示意的比較誇張，我讓邊框增加100pixl，圖片大小原為211*80。

#OpenCV#Python#OCR辨識影像前處理

2024/07/25

螃蟹_crab的沙龍

[OpenCV][Python]OCR辨識影像前處理_增加邊框

#OpenCV#Python#OCR辨識影像前處理

2024/07/25

螃蟹_crab的沙龍

[OCR][Python]tesseract 4.0 辨識模型Fine tune

微調(Fine tune)是深度學習中遷移學習的一種方法，其中預訓練模型的權重會在新數據上進行訓練。本文主要介紹如何使用新的訓練圖檔在tesseract 辨識模型進行Fine tune 有關於安裝的部分可以參考友人的其他文章 Tesseract OCR - 繁體中文【安裝篇】將所有資料

#tesseract#OCR#python

2024/06/21

螃蟹_crab的沙龍

[OCR][Python]tesseract 4.0 辨識模型Fine tune

#tesseract#OCR#python

2024/06/21

leqi.ai

如何利用OCR技術提高PDF文檔處理效率

學習如何將掃描的PDF轉換為可搜索文本，並高效管理和查找文件。探索先進的OCR技術如何提升文檔處理效率。

#學習#學術#電子

2024/06/11

leqi.ai

如何利用OCR技術提高PDF文檔處理效率

學習如何將掃描的PDF轉換為可搜索文本，並高效管理和查找文件。探索先進的OCR技術如何提升文檔處理效率。

#學習#學術#電子

2024/06/11

leqi.ai

瞭解如何將掃描的PDF轉換為可搜索的文本

在本文中，我們將瞭解如何將掃描的PDF轉換為可搜索文本，並高效管理和查找文件。探索先進的OCR技術如何提升文檔處理效率。

#PDF#pdftopdf#OCR

2024/06/04

leqi.ai

瞭解如何將掃描的PDF轉換為可搜索的文本

在本文中，我們將瞭解如何將掃描的PDF轉換為可搜索文本，並高效管理和查找文件。探索先進的OCR技術如何提升文檔處理效率。

#PDF#pdftopdf#OCR

2024/06/04

螃蟹_crab的沙龍

[OCR][Python]測試tesseract與easyOCR誰比較準跟快

平時都在用tesseract來辨識OCR的部分，在網路上也常常聽說easyOCR比tesseract好用，就拿之前測試的OCR素材來比較看看囉。以下輸入同樣圖片直接測試，並非絕對誰就比較準，只單純測試數字含英文的部分。圖片素材就是15碼(英文加數字)，檔名為OCR正確結果

#Python#OpenCV#tesseract

2024/06/01

螃蟹_crab的沙龍

[OCR][Python]測試tesseract與easyOCR誰比較準跟快

#Python#OpenCV#tesseract

2024/06/01

阿Han的沙龍

【Python 軍火庫🧨 - EasyOCR】讓我們對圖片進行文字辨識吧

EasyOCR是一個能夠幫助你對圖片中的文字進行辨識的工具，透過進階分析，可以應用在文件掃描、自動化數據輸入、發票掃描等領域。本章節將介紹如何安裝、引用模型、進行文字辨識、以及辨識結果的分析。透過學習，你可以建立屬於自己的文字辨識系統。

#模型#GPU#文章

2024/02/20

阿Han的沙龍

【Python 軍火庫🧨 - EasyOCR】讓我們對圖片進行文字辨識吧

#模型#GPU#文章

2024/02/20

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News