Tesseract OCR - 繁體中文【簡易識別篇】

閱讀時間約 5 分鐘
GitHub
Tesseract OCRtesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository) (github.com)
Tesseract User ManualTesseract User Manual | tessdoc (tesseract-ocr.github.io)
How to train LSTM Tesseracttessdoc/TrainingTesseract-5.md at main ·tesseract-ocr/tessdoc (github.com)
  • 作業系統:win10
  • 版本訊息-命令提示字元(CMD)
C:\Users\user>tesseract --version
tesseract v5.0.1.20220118
leptonica-1.78.0
libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.3) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0
Found AVX2
Found AVX
Found FMA
Found SSE4.1
Found libarchive 3.5.0 zlib/1.2.11 liblzma/5.2.3 bz2lib/1.0.6 liblz4/1.7.5 libzstd/1.4.5
Found libcurl/7.77.0-DEV Schannel zlib/1.2.11 zstd/1.4.5 libidn2/2.0.4 nghttp2/1.31.

一、簡單OCR識別

tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]
1、開啟命令提示字元(cmd),進入到要識別的圖片的路徑下
cd 圖片路徑
2、tesseract 【預識別圖片之名稱】【生成的結果文件的名稱】-l【字庫】 
  • -l :選擇輸入語言/ 預設是英文 default “eng”
tesseract test.jpg result -l chi_tra 
3、產生result.txt文件

二、使用一種語言

-l LANG
  • LANG是三個英文字母組成的代表各種語言
  • 可以在命令提示字元輸入tesseract --list-langs來查看目前有什麼語言可以選擇

三、使用多種語言

-l LANG[+LANG]
  • 舉例(繁體中文+英文):tesseract test.jpg result -l chi_tra+eng
  • 根據語言的順序,輸出可能會有所不同例如:chi_tra+eng 和 eng+chi_tra

tesseract使用方式

Usage
命令提示字元(cmd):
tesseract --help
tesseract --help-extra
tesseract --version
tesseract --list-langs
  • tesseract imagename outputbase[-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]

使用不同的頁面分割模式

Page segmentation modes
tesseract test.jpg result -psm 6 -l chi_tra
0 僅限方向和腳本檢測 (OSD)。
1 帶有 OSD 的自動頁面分割。
2 自動頁面分割,但沒有 OSD 或 OCR。
3 全自動分頁,但無OSD。 (默認)
4 假設有一列大小可變的文本。
5 假設有一個統一的垂直對齊文本塊。
6 假設有一個統一的文本塊。(網路上教學常用)
7 將圖像視為單個文本行。
8 將圖像視為一個詞。
9 將圖像視為圓圈中的單個單詞。
10 將圖像視為單個字符。

OCR 引擎

OCR Engine modes
tesseract test.jpg result -oem 1 -l chi_tra
0 Legacy engine only.
1 Neural nets LSTM engine only.
2 Legacy + LSTM engines.
3 Default, based on what is available.

參考資料

為什麼會看到廣告
6會員
46內容數
這是新手寫給新手的學習程式語言基礎教學筆記,內容會以C++為主
留言0
查看全部
發表第一個留言支持創作者!
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
學習如何將掃描的PDF轉換為可搜索文本,並高效管理和查找文件。探索先進的OCR技術如何提升文檔處理效率。
Thumbnail
平時都在用tesseract來辨識OCR的部分,在網路上也常常聽說easyOCR比tesseract好用,就拿之前測試的OCR素材來比較看看囉。 以下輸入同樣圖片直接測試,並非絕對誰就比較準,只單純測試數字含英文的部分。 圖片素材就是15碼(英文加數字),檔名為OCR正確結果
OCR (Optical Character Recognition) technology revolutionizes the conversion of texts from physical documents into digital data, enhancing processing
Thumbnail
Google Tesseract Config說明,程式範例實際修改示範 前言 Tesseract 的 config 檔案用於指定 OCR 引擎的設定和參數。這些參數可以影響文本識別的結果 本文將彙整常用參數調整,並呈現不同參數出現不同的辨識結果 官網Tesseract OCR參數說明連結
Thumbnail
使用Google Tesseract應用,擷取圖像的OCR並將讀取到的字元標註在原圖上 光學字元辨識功能 (Optical character recognition,光學字符辨識) 可以將影像中特徵範圍內的文本轉換為數字形式的文本。使用前必須安装Google Tesseract並更新
Thumbnail
芫荽 ㄩㄢ‘ ㄙㄨㄟ - 繖形科「胡荽」的別名。也稱為「香菜」、「香荽」。 - 芫荽在台灣各地栽培普遍,台灣全島各地均有栽培。 - 邰智源很討厭的植物。 - 台南到處可見。 - 還好我會講台語。 Shopping Design 的介紹:按這裡 字體「芫荽」:按此下載
Thumbnail
《柳橙不是唯一的水果》、《正常就好,何必快樂?》作者珍奈‧溫特森 「坦誠檢視愛、熱情、慾望」的魔幻寫實小說代表作 首見繁體中文譯本 在一個奇蹟與日常相互碰撞的世界裡, 在愛和絕望之間,在恐懼與慾望之間, 激情存在。
Thumbnail
[懷舊遊戲週報 2021/11-1] 懷舊遊戲週報收集每週與懷舊遊戲相關的新訊,預定每週五出刊。 本週主要的消息包含: ‧《復活邪神2》繁體中文版發售日確認 ‧《Eschatos》將推出 Switch 版 ‧FC/NES開發技術講解影片...等其他資訊
Thumbnail
這是關於兩個人的故事,也是關於兩個地方的故事。十七歲的高中生張朋城,一個有著心理困境的少年。他每天往返於某醫院的青少年日間病房,一個像是學校的地方。這裡每天都有新的病患加入或是離開,但他卻是永恆的「班長」,他甚至不知道自己是否還想回到學校。直到他遇見新來的醫師蔡伯鑫。少年漸漸發現,蔡醫師的心…
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
學習如何將掃描的PDF轉換為可搜索文本,並高效管理和查找文件。探索先進的OCR技術如何提升文檔處理效率。
Thumbnail
平時都在用tesseract來辨識OCR的部分,在網路上也常常聽說easyOCR比tesseract好用,就拿之前測試的OCR素材來比較看看囉。 以下輸入同樣圖片直接測試,並非絕對誰就比較準,只單純測試數字含英文的部分。 圖片素材就是15碼(英文加數字),檔名為OCR正確結果
OCR (Optical Character Recognition) technology revolutionizes the conversion of texts from physical documents into digital data, enhancing processing
Thumbnail
Google Tesseract Config說明,程式範例實際修改示範 前言 Tesseract 的 config 檔案用於指定 OCR 引擎的設定和參數。這些參數可以影響文本識別的結果 本文將彙整常用參數調整,並呈現不同參數出現不同的辨識結果 官網Tesseract OCR參數說明連結
Thumbnail
使用Google Tesseract應用,擷取圖像的OCR並將讀取到的字元標註在原圖上 光學字元辨識功能 (Optical character recognition,光學字符辨識) 可以將影像中特徵範圍內的文本轉換為數字形式的文本。使用前必須安装Google Tesseract並更新
Thumbnail
芫荽 ㄩㄢ‘ ㄙㄨㄟ - 繖形科「胡荽」的別名。也稱為「香菜」、「香荽」。 - 芫荽在台灣各地栽培普遍,台灣全島各地均有栽培。 - 邰智源很討厭的植物。 - 台南到處可見。 - 還好我會講台語。 Shopping Design 的介紹:按這裡 字體「芫荽」:按此下載
Thumbnail
《柳橙不是唯一的水果》、《正常就好,何必快樂?》作者珍奈‧溫特森 「坦誠檢視愛、熱情、慾望」的魔幻寫實小說代表作 首見繁體中文譯本 在一個奇蹟與日常相互碰撞的世界裡, 在愛和絕望之間,在恐懼與慾望之間, 激情存在。
Thumbnail
[懷舊遊戲週報 2021/11-1] 懷舊遊戲週報收集每週與懷舊遊戲相關的新訊,預定每週五出刊。 本週主要的消息包含: ‧《復活邪神2》繁體中文版發售日確認 ‧《Eschatos》將推出 Switch 版 ‧FC/NES開發技術講解影片...等其他資訊
Thumbnail
這是關於兩個人的故事,也是關於兩個地方的故事。十七歲的高中生張朋城,一個有著心理困境的少年。他每天往返於某醫院的青少年日間病房,一個像是學校的地方。這裡每天都有新的病患加入或是離開,但他卻是永恆的「班長」,他甚至不知道自己是否還想回到學校。直到他遇見新來的醫師蔡伯鑫。少年漸漸發現,蔡醫師的心…