用 OpenCV 開啟電腦視覺的世界:基礎介紹與應用(使用Python)

更新於 2024/11/17閱讀時間約 12 分鐘

所謂電腦視覺

電腦視覺算不算是一種AI?答案是對,電腦視覺就是AI的其中一項應用。我們可以把「電腦視覺」想像成「讓電腦學會用眼睛看懂世界」。就像人類用眼睛看東西並理解這些東西的樣子,電腦視覺是讓電腦學會「看」影像或影片,並從中「理解」裡面有哪些內容。然而,讓電腦跟人腦一樣得理解圖片內容,就是其最大的困難點。

以底下這張照片中,電腦能夠讀懂圖片中的物件並準確分類。

raw-image

舉個例子,當一個人看到以下這兩張圖片時,會很直覺的認為左邊的是玩具車,而右邊的是普通的汽車,原因就在於他的大小以及跟周邊物體的對比。電腦視覺所要模擬的,就是這種思考方式,因此能準確的判斷圖片中一個物體。

玩具車 vs 真實汽車

玩具車 vs 真實汽車

雖然聽起來挺容易理解電腦視覺在做的事,但其中也與深度學習有著強烈的關聯,有相當多要研究的地方,若往下研究會發現這是一個很深的坑啊~,所以隨著現在人工智慧、深度學習等技術的興起,影像辨識的強度、準確度以及速度都大幅提升,應用的領域也越來越廣。雖然這是一個聽起來很困難的事,但是網路上提供了五花八門的學習影像辨識函式庫,可以利用引用別人已經寫好的函式來做專案,這樣就可以大大降低入門的門檻,這次就來介紹其中最著名的函式庫OpenCV。


什麼是OpenCV?

在要開始認識OpenCV之前,要先知道CV指的是電腦視覺(Computer Vision),因此他的全名便是Open Source Computer Vision Library,開源的電腦視覺,由 Intel 發起並開源,它在學術研究和商業應用中都非常流行。OpenCV 支援多種程式語言,包括 Python、C++、Java 等,並且可以在多個作業系統上運行,如 Windows、Linux 和 macOS。

OpenCV的功能十分強大,提供了基本的影像操作(濾波、邊緣檢測、直方圖均衡化)、物件檢測、影像分割、特徵提取,甚至內建了一些基本的機器學習演算法,例如支援向量機(SVM)、K-means 分群等,以及深度學習模型加載,可以直接使用訓練好的模型進行推理。

這些都還需要很多時間的學習,先看看就好~ 不過有興趣的話也歡迎繼續閱讀下去,下一段中會介紹他的基礎的操作方式


OpenCV的運作方式

OpenCV的使用方式可以大致分為三個步驟

  1. 讀取影像或影片(讓電腦「看到」東西)
    首先,OpenCV 需要從某個來源(例如相機或影像檔案)「看到」影像。電腦本身不是真的有眼睛,它看到的是一堆數字,但這些數字代表影像中的顏色和亮度。OpenCV 將影像或影片讀入程式,這樣影像內容就能進一步進行處理。
  2. 處理影像(讓電腦「理解」影像)
    接著,OpenCV 會對影像進行一些處理,這一步就是讓電腦「理解」影像內容。例如:
    • 轉換顏色:可以把彩色影像轉成黑白,這樣可以幫助簡化資料,讓處理速度變快。
    • 去除雜訊:影像可能有雜訊或模糊點,OpenCV 可以用一些技術把影像弄得更清晰。
    • 找邊緣:電腦可以找出物體的輪廓,就像我們在畫畫時會先畫出物體的外形。這對於辨識物體很有幫助。
    • 物體辨識:利用一些訓練好的資料庫,OpenCV 可以「判斷」影像中有哪些東西,比如人臉、車輛、文字等。
  3. 顯示或輸出結果(讓電腦“展示”結果)
    處理完影像後,OpenCV 可以把結果「顯示」出來。這可能是顯示一張標註過的影像,或者儲存成新的檔案。比如,我們可以把檢測到的臉部用方框框起來,然後顯示在畫面上

自己寫寫看簡單的影像辨識!

我們將會使用OpenCV裡的 Haar Cascades 人臉辨識分類器

首先要先在終端機打下以下指令,下載所需的opencv函式庫

pip install opencv-python

接著就可以開始寫程式了~

import cv2 
# Step 1 img = cv2.imread('Nicolas.jpeg')
face_cascade = cv2.CascadeClassifier(cv2.data.haarcascades + 'haarcascade_frontalface_default.xml')

Step 1.

import cv2 引入opencv後便可以開始撰寫其他內容。

img = cv2.imread(圖片名稱) 這裡是要將一張自己所下載好的圖片給cv2讀取(提醒:圖片中要有人的「正臉」之後才能看出效果)

💡補充:
cv2.CascadeClassifier(cv2.data.haarcascades + 'haarcascade_frontalface_default.xml') :
cv2.CascadeClassifier: 這是OpenCV中用來做物體檢測的分類器。它可以用來檢測像是人臉、眼睛等特徵。
cv2.data.haarcascades: 這是OpenCV中存放預訓練的Haar分類器模型的位置。Haar特徵分類器是一種常用的物體檢測方法。
'haarcascade_frontalface_default.xml':這是Haar分類器模型的名稱,它專門用來檢測正面人臉。這個XML檔案包含了識別人臉所需的特徵數據。

定義一個名為face_cascade的變數,用來當成是cv2.CascadeClassifier偵測正面人臉的工具。

face_casade = .... 

#接著上面的程式碼繼續寫

#Step 2.
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

faces = face_cascade.detectMultiScale(gray, 1.1, 4)

for (x, y, w, h) in faces:
cv2.rectangle(img, (x, y), (x+w, y+h), (255, 0, 0), 2)

Step 2.

我們要先透過cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)把影像轉換成灰階,並用gray變數存起來。

原始圖片 vs 灰階圖片

原始圖片 vs 灰階圖片

之所以在做影像辨識時要將圖片轉成灰階,是由於將圖片轉換成灰階可以簡化影像處理的過程,提高運算效率,並在某些情況下提高辨識的準確度。舉個例子,在人臉辨識中,我們通常會將彩色人臉圖像轉換為灰階圖,因為人臉的主要特徵,如眼睛、鼻子、嘴巴等,在灰階圖中仍然清晰可見。而彩色資訊,如膚色等,對於人臉辨識來說並不重要,反而可能引入不必要的雜訊。

💡💡補充:
face_cascade.detectMultiScale(灰階圖片, 縮放比例, 檢測次數)

1.1 這是 scaleFactor 參數,用來設定每次圖像尺寸縮放的比例(這個參數是用來處理圖片中不同大小的人臉):
值越接近 1,檢測會越精確,但運算時間會增加
。例如 1.1 表示每次將圖片縮小 10%
。如果設為 1.2 則每次縮小 20%

4 這是 minNeighbors 參數,表示每個候選區域至少要檢測到幾次才算是真的人臉:
。值越大,誤判率越低,但可能會漏掉一些人臉
。值越小,可以檢測到更多人臉,但可能會有更多誤判
。一般建議值在 3-6 之間

我們可以透過這行簡單的程式,套用「正臉」臉部辨識的函式,faces = face_cascade.detectMultiScale(gray, 1.1, 4),而face所會得到的資料是一個多維矩陣的格式,每個矩陣中包含(x, y, w, h),分別代表每個所判定到的人臉的在圖片中的位子以及大小。


有了資料之後,便可以開始把辨識到的人臉框起來(將資料視覺化),可以透過一個for迴圈讀取faces中的每個矩陣,並用其中的(x, y, w, h)資料透過cv2.rectengle函式在圖片中畫出一個矩形的框框,
for (x, y, w, h) in faces:
cv2.rectangle(img, (x, y), (x+w, y+h), (255, 0, 0), 2)


for (x, y, w, h) in faces: 
... #接著上面的程式碼繼續寫

#Step 3.
cv2.imshow('img',img)
cv2.waitKey(0)
cv2.destroyAllWindows()


Step 3.

💡 補充:cv2.imshow(窗口名稱, 圖片)

最後,我們只需要透過cv2.imshow()指令上畫面顯示出來即可。

恭喜你完成了第一個OpenCV的程式!這就是一個最簡單使用OpenCV中內建的函式的其中一種方式,寫完後也可以嘗試更改看看face_cascade.detectMultiScale(gray, 1.1, 4) 中的參數,或是更換成其他圖片,並看看差異在哪裡~


完整程式碼

import cv2 

# 讀取圖片
img = cv2.imread('Nicolas.jpeg')

cv2.imshow('orig img',img)

# 使用「正臉」的人臉辨識系統
face_cascade = cv2.CascadeClassifier(cv2.data.haarcascades + 'haarcascade_frontalface_default.xml')

#將圖片轉換成灰階
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

#讀取圖片中的所有人臉
faces = face_cascade.detectMultiScale(gray, 1.1, 4)

#在畫面中畫出框框
for (x, y, w, h) in faces:
cv2.rectangle(img, (x, y), (x+w, y+h), (255, 0, 0), 2)

# 顯示最後結果(圖片)
cv2.imshow('img',img)
cv2.waitKey(0)
cv2.destroyAllWindows()


結論

OpenCV 是一個厲害且普遍的開源電腦視覺函式庫,特別適合想要入門影像處理的程式開發者。它最常用於 Python 程式語言,提供了豐富的工具和函式來處理圖片與視訊。初學者可以從基本的圖片操作開始,例如讀取、顯示和儲存圖片,這些都只需要幾行簡單的程式碼就能完成。進階一點的功能包括調整圖片大小、裁剪、旋轉、模糊化等基本影像處理,這些都是建立更複雜應用的基礎,在往下研究的話,也能透過tensorflow等套件自己訓練模型。若對於此OpenCV影像辨識的領域有興趣,上網自學也是一個很好的方式,由於它是很熱門的套件,所以網路上的資源是相當多,相信你可以玩出一些新花樣!。

進階思考

除了OpenCV這種影像辨識的套件還有其他類似的套件嗎?有的,而且也不少,以下我整理了一不同難度的套件,之後有感興趣的話也歡迎研究看看!

  • 入門學習:
    • OpenCV + Pillow:基礎影像處理
    • TensorFlow/Keras:深度學習入門
  • 專案開發:
    • 網頁應用:MediaPipe
    • 行動應用:TensorFlow Lite
    • 研究專案:PyTorch
    • 即時處理:Dlib
  • 特定應用:
    • 人臉辨識:Dlib + OpenCV
    • 物件偵測:Detectron2
    • 姿態估計:MediaPipe
    • 圖片處理:Pillow + Scikit-image
avatar-img
2會員
4內容數
這裡會分享一些各式各樣有關程式的內容~
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
你可能也想看
Google News 追蹤
Thumbnail
投資新手大多從身邊市場開始著手,選擇台股市場入門,單筆投資或台股定期定額投資,隨著經驗累積,進入美股市場也是好選擇,這篇文章帶你前進美股投資,證券開戶選擇國內券商複委託,使用美股定期定額投資,並以國泰 CUBE App為例說明。 內容目錄: 1.一站式開戶:以國泰世華 CUBE App 為例
Thumbnail
這是張老師的第三本書,我想前二本應該也有很多朋友們都有讀過,我想絕對是受益良多,而這次在書名上就直接點出,著重在從投資的角度來切入
Thumbnail
GNN發展背景 傳統的深度學習模型如在計算機視覺(CV)和自然語言處理(NLP)領域中極為成功,主要是處理結構化數據如影像和文本。這些數據類型通常具有固定且規律的結構,例如影像是由有序的像素點組成。然而,在真實世界中,許多數據是非結構化的,如化合物結構(原子和分子)。這些數據雖然具有一定的規則性,
Thumbnail
視覺層級並不侷限於平面設計,在用戶體驗及介面上更是一個重要的核心之一。視覺層級除了讓畫面的視覺編排更加精緻好看,更重要的功能是能讓畫面有效地被組織,讓觀者更容易理解。
Thumbnail
在影像辨識中,若遇到物件與背景難以分辨的狀況下,先做一下色彩分析,知道了色彩強度階層上的像素數,有助於了解後續需要做什麼處理,比較好分割出辨識物。 若想辨識的物件與背景的RGB值過於接近,也比較好說明此狀況,為什麼較難分割出物件。 成果呈現 第一張圖:左邊為原圖,右邊為分析結果的圖,用其他顏
Thumbnail
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
Thumbnail
其實,有時候會想...我幹嘛要坐在電腦前,用 AI 畫圖呀? 何不直接拿著相機出門走一走呢?
Thumbnail
上圖是根據彩色故事腳本生成的照片與草圖。 運用圖生圖的原理,把AI視覺故事腳本的其中一個畫面。擷取出來。 輸入重新繪製這張圖片 AI 會自然根據草圖,重新繪製元素一樣的精細畫面。
Thumbnail
本文將介紹影像的基本操作包括:影像的讀取、顯示、保存,以及一些常見的操作如裁剪、旋轉、縮放等。 語法介紹 讀取影像: cv2.imread函數的參數是影像的檔案路徑。讀取後的影像以NumPy的ndarray形式表示。
Thumbnail
OpenCV(Open Source Computer Vision Library)是一個開源的計算機視覺和影像處理庫,它提供了豐富的功能和工具,可用於開發各種視覺應用程式。 OpenCV最初是用C++編寫的,但它也提供了Python、Java等多種程式語言的接口,方便不同語言的開發者使用。
Thumbnail
[影像處理_OpenCV Python]使用Python撰寫影像處理功能,圖片遮罩或濾除掉不要的地方,旋轉圖片 以下範例將呈現影像處理三種不同的應用: 遮罩的實現 濾除 旋轉
Thumbnail
投資新手大多從身邊市場開始著手,選擇台股市場入門,單筆投資或台股定期定額投資,隨著經驗累積,進入美股市場也是好選擇,這篇文章帶你前進美股投資,證券開戶選擇國內券商複委託,使用美股定期定額投資,並以國泰 CUBE App為例說明。 內容目錄: 1.一站式開戶:以國泰世華 CUBE App 為例
Thumbnail
這是張老師的第三本書,我想前二本應該也有很多朋友們都有讀過,我想絕對是受益良多,而這次在書名上就直接點出,著重在從投資的角度來切入
Thumbnail
GNN發展背景 傳統的深度學習模型如在計算機視覺(CV)和自然語言處理(NLP)領域中極為成功,主要是處理結構化數據如影像和文本。這些數據類型通常具有固定且規律的結構,例如影像是由有序的像素點組成。然而,在真實世界中,許多數據是非結構化的,如化合物結構(原子和分子)。這些數據雖然具有一定的規則性,
Thumbnail
視覺層級並不侷限於平面設計,在用戶體驗及介面上更是一個重要的核心之一。視覺層級除了讓畫面的視覺編排更加精緻好看,更重要的功能是能讓畫面有效地被組織,讓觀者更容易理解。
Thumbnail
在影像辨識中,若遇到物件與背景難以分辨的狀況下,先做一下色彩分析,知道了色彩強度階層上的像素數,有助於了解後續需要做什麼處理,比較好分割出辨識物。 若想辨識的物件與背景的RGB值過於接近,也比較好說明此狀況,為什麼較難分割出物件。 成果呈現 第一張圖:左邊為原圖,右邊為分析結果的圖,用其他顏
Thumbnail
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
Thumbnail
其實,有時候會想...我幹嘛要坐在電腦前,用 AI 畫圖呀? 何不直接拿著相機出門走一走呢?
Thumbnail
上圖是根據彩色故事腳本生成的照片與草圖。 運用圖生圖的原理,把AI視覺故事腳本的其中一個畫面。擷取出來。 輸入重新繪製這張圖片 AI 會自然根據草圖,重新繪製元素一樣的精細畫面。
Thumbnail
本文將介紹影像的基本操作包括:影像的讀取、顯示、保存,以及一些常見的操作如裁剪、旋轉、縮放等。 語法介紹 讀取影像: cv2.imread函數的參數是影像的檔案路徑。讀取後的影像以NumPy的ndarray形式表示。
Thumbnail
OpenCV(Open Source Computer Vision Library)是一個開源的計算機視覺和影像處理庫,它提供了豐富的功能和工具,可用於開發各種視覺應用程式。 OpenCV最初是用C++編寫的,但它也提供了Python、Java等多種程式語言的接口,方便不同語言的開發者使用。
Thumbnail
[影像處理_OpenCV Python]使用Python撰寫影像處理功能,圖片遮罩或濾除掉不要的地方,旋轉圖片 以下範例將呈現影像處理三種不同的應用: 遮罩的實現 濾除 旋轉