今天要來介紹的工具是「EasyOCR」這套工具, 他可以幫助我們對圖片中的文字進行辨識, 進一步可以做進階分析, 本章節會稍微帶過基礎概念, 並著重於工具的使用, 因此我們會以一張靜態圖片為示範進行文字的辨識。
OCR(Optical Character Recognition,光學字符識別)是一種技術,用於自動識別和提取印刷或手寫文本中的字符。
pip install easyocr
我們將載入「中文」、「英文」的模型, 並採取GPU的方式進行運算。
import easyocr
reader = easyocr.Reader(['ch_tra','en'], gpu = True)
使用起來也非常的簡單, 我們只要給予圖片位置即可進行辨識。
image_path = 'test.png'
result = reader.readtext(image_path)
基本上沒有特別指定回傳類型時, 將回傳以下資料, 我們也會針對底下的資料內容一一說明。
[([[56, 84], [224, 84], [224, 116], [56, 116]], 'Analytics India', 0.5051276683807373), ([[54, 118], [142, 118], [142, 142], [54, 142]], 'MAGAZINE', 0.6871832013130188)]
for (bbox, text, prob) in result:
print(bbox)
print(text)
print(prob)
原來OCR的技術已經這麼成熟的! 不再像過往需要重頭開始模型訓練, 大部分語言的模型都已經有開源釋出了, 真的非常感謝這些佛心的前輩讓我們科技進展加速, 而我們需要了解的部份會是OCR這門技術的基礎概念, 之後搭配文檔就能夠搭建出屬於自己的文字辨識系統了。
我們在「🔒 阿Han的軟體心法實戰營 - 影像處理」也會教您如何對影片進行文字辨識, 甚至產生字幕的詳細教學, 歡迎加入一起學習。