影像辨識是AI領域裡最直覺、也最好玩的應用之一。
我們在第一個例子就提過「教寶寶認蘋果」,那其實就是影像辨識的核心。現在,我們來深入看看,電腦究竟是**怎麼「看」**一張圖片的。
人類看一張貓的照片,會立刻認出「喔,是隻貓」。但電腦看到的完全不一樣,對電腦來說,一張圖片只是一大堆數字。想像一下,你把一張照片無限放大,最後會看到什麼?沒錯,就是一個個微小的色塊,叫做「像素 (Pixel)」。電腦看到的就是這些像素的數值(例如:這個點的紅色是255、綠色是120、藍色是80)。
那麼,電腦要如何從這一堆雜亂的數字中,認出「貓」呢?
讓我們把電腦的學習過程,想像成一個從零開始玩樂高積木的小朋友。
用樂高學辨識 🧱
第一層:學習辨識「最小的積木」 (低階特徵)
一開始,電腦不會直接去找「貓的耳朵」或「貓的眼睛」,那太複雜了。
它會先從最基本的圖案學起,就像小朋友先認識最基本的樂高積木:
- 一條橫線 (一塊 2x1 的紅色積木)
- 一條直線 (一塊 1x2 的藍色積木)
- 一個角落 (一塊L形的積木)
- 一個漸層色塊
- 一個圓弧
電腦會掃描整張圖片,努力找出這些最基礎的「圖案積木」。
(電腦先學會辨識這些基礎線條和邊緣)
第二層:學習用積木「組裝小零件」 (中階特徵)
當電腦認識了基礎積木後,它會開始學習如何將這些積木組合成稍微複雜一點的「小零件」。
就像小朋友學會了:
- 「兩個圓弧」和「一個小圓點」可以組成一顆「眼睛」👀。
- 「好幾條直線」可以組成一排「鬍鬚」鬚。
- 「一個三角形的邊緣組合」可以變成一隻「耳朵」👂。
這時,電腦還不知道這是一隻貓,但他已經能在圖片中找到「眼睛」、「鬍鬚」、「耳朵」這些由基礎線條組成的「零件」了。
(再把線條組合成眼睛、鼻子等器官)
第三層:學習將零件「拼成完整的模型」 (高階特徵)
最後一步,就是把所有辨識出來的「零件」組合起來,拼出最終的模型。
小朋友學會了:如果我看到一個模型,它是由「兩隻尖尖的耳朵」+「兩顆圓圓的眼睛」+「一個倒三角的鼻子」+「六根長長的鬍鬚」... 用這樣的空間關係組合在一起,那這個模型 99% 的機率就是「貓」!
(最後,將所有器官組合起來,就能認出整張臉)
生活中的影像辨識例子:
- 手機人臉解鎖 (Face ID):你的手機就是用這個方法,學習了你臉上「眼睛、鼻子、嘴巴」這些零件的獨特組合方式,所以別人解不開。
- 停車場車牌辨識:系統先在畫面中找到「長方形」這個零件(車牌),然後再辨識裡面的「數字」和「字母」零件。
- 醫療影像分析:醫生可以訓練AI,讓它在X光片或CT掃描圖中,學會辨識出代表「腫瘤」或「病變」的特殊圖案組合。
- 自動駕駛:車子的電腦不斷地辨識路上的「行人」、「汽車」、「紅綠燈」、「斑馬線」等各種物體模型,才能安全行駛。
簡單來說:
影像辨識就是教電腦「拆解」畫面,從最基本的線條和顏色學起,一步步組合,最終認出複雜的物體。這是一個由小到大、由簡入繁的學習過程!
光說不練不過癮,對吧?
下一歩,我們將一起來玩一個由 Google 開發的超簡單AI工具 Teachable Machine?它可以讓你在幾分鐘內,「親手訓練」一個專屬於你的影像辨識模型喔!完全不用寫任何程式碼!