【Python 軍火庫🧨 - EasyOCR】讓我們對圖片進行文字辨識吧

更新於 2025/02/20發佈於 2024/02/20閱讀時間約 2 分鐘

今天要來介紹的工具是「EasyOCR」這套工具，他可以幫助我們對圖片中的文字進行辨識，進一步可以做進階分析，本章節會稍微帶過基礎概念，並著重於工具的使用，因此我們會以一張靜態圖片為示範進行文字的辨識。

OCR（Optical Character Recognition，光學字符識別）是一種技術，用於自動識別和提取印刷或手寫文本中的字符。

安裝

pip install easyocr

引用並載入模型

我們將載入「中文」、「英文」的模型，並採取GPU的方式進行運算。

import easyocr
reader = easyocr.Reader(['ch_tra','en'], gpu = True)

簡單對圖片進行辨識

使用起來也非常的簡單，我們只要給予圖片位置即可進行辨識。

image_path = 'test.png'
result = reader.readtext(image_path)

辨識結果分析

基本上沒有特別指定回傳類型時，將回傳以下資料，我們也會針對底下的資料內容一一說明。

[([[56, 84], [224, 84], [224, 116], [56, 116]], 'Analytics India', 0.5051276683807373), ([[54, 118], [142, 118], [142, 142], [54, 142]], 'MAGAZINE', 0.6871832013130188)]

for (bbox, text, prob) in result:
		print(bbox)
		print(text)
		print(prob)

結語

原來OCR的技術已經這麼成熟的！不再像過往需要重頭開始模型訓練，大部分語言的模型都已經有開源釋出了，真的非常感謝這些佛心的前輩讓我們科技進展加速，而我們需要了解的部份會是OCR這門技術的基礎概念，之後搭配文檔就能夠搭建出屬於自己的文字辨識系統了。

我們在「🔒 阿Han的軟體心法實戰營 - 影像處理」也會教您如何對影片進行文字辨識，甚至產生字幕的詳細教學，歡迎加入一起學習。

阿Han的沙龍

127會員

281內容數

哈囉，我是阿Han，是一位 👩‍💻 軟體研發工程師，喜歡閱讀、學習、撰寫文章及教學，擅長以圖代文，化繁為簡，除了幫助自己釐清思路之外，也希望藉由圖解的方式幫助大家共同學習，甚至手把手帶您設計出高品質的軟體產品。

留言

留言分享你的想法！

阿Han的沙龍的其他內容

【🤖 cursor AI】如何使用MCP Server

我們在「【🤖 cursor AI】如何在ubuntu 24.04安裝」有分享如何在Ubuntu安裝cursro這套AI編輯器，使用起來大幅度的提昇開發效率，但仍有些問題點需要克服，比如說： LLM壓根不知道我們的數據庫長怎樣啊？怎麼分析結構呢？假設文檔又不足的狀況下更是艱辛，如果LLM

#Cursor #MCP #Model C

【語音合成技術 - MeloTTS】如何建置API服務？

我們在「【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務」分享了語音合成技術，該套GPT-SoVITS也非常的出色，但效能有點不是非常理想，加上需要GPU才能達到較佳的體驗，如此一來成本就會有點高了，因此我們找了另外一套MeloTTS，這一套強調CPU推理非常的快！

#python #TTS #安裝

【語音合成技術 - GPT-SoVITS】解析API版本

我們在「【語音合成技術 - GPT-SoVITS】如何架設API伺服器」分享如何架設API V3版本的TTS服務，但發音的部份似乎只有早期的API版本才使用到g2pw這類的技術，因此我們可能會需要將API退回舊版，在這裡我們也整理了早期版本api與api_v2的一些差異，期望幫助到正在面臨選

#python #TTS #版本