AI時代系列(2) 機器學習三部曲: 🔹 第二部:《深度學習 —— 神經網路的革命》
21/100 第三週:📌 卷積神經網路 CNN
21.CNN 的誕生與應用 👁🗨 讓電腦學會「看」!
______________________________________
✅ 為什麼需要 CNN?
多層感知器(MLP)雖然能分類,但無法有效處理圖像。
📌 問題一:圖片資料維度太高,參數數量爆炸
📌 問題二:全連接網路忽略「空間關係」
📌 問題三:圖像有位置平移、旋轉等變化,MLP 無法辨認
🎯 解決方案就是 CNN——一種模仿視覺皮質神經元結構的深度學習架構。
________________________________________
🧠 CNN 的靈感來源
1980 年代,神經科學家發現:人類視覺皮質會辨認局部特徵(邊緣、線條),再逐層組合出整體意象。
Yann LeCun 於 1998 年發明 LeNet-5,首次成功用 CNN 識別手寫數字,從此開啟 AI 視覺革命!
________________________________________
🔍 CNN 的關鍵特色:
區域感受野:僅關注圖片局部,能大幅減少參數並聚焦特徵。 參數共享:同一組濾波器在整張圖上滑動,提高計算效率與泛化能力。 空間不變性:可辨認「出現了什麼特徵」,而不侷限於「出現在哪裡」。 層層堆疊學習:第一層學邊緣 → 第二層學形狀 → 第三層學物體 → 最後輸出分類。
________________________________________
📸 CNN 應用場景大爆發!
應用領域 實例說明
👁 圖像辨識 手寫字體、貓狗辨識、安防監控、交通標誌識別
🎥 影像分類 影片場景判讀、人臉辨識、醫療影像診斷
🖼 風格轉換 把照片轉成畫作風格(Neural Style Transfer)
🚗 自動駕駛 車道辨識、障礙物辨識、交通號誌偵測等
📱 手機應用 自拍美顏、即時濾鏡、影像搜尋、AR 識別
________________________________________
🧩 CNN vs MLP 對比
MLP(多層感知器)與 CNN(卷積神經網路)是兩種常見的神經網路架構,適用於不同類型的資料與任務。MLP 將輸入資料展平成向量,無法保留原始的空間結構,參數量較多,適合用於處理表格型結構化資料或簡單分類任務;而 CNN 則能保留輸入的 2D 或 3D 空間資訊,透過捲積層進行參數共享,有效減少參數並具備空間感知能力,能辨識圖像中的邊緣、紋理與局部圖案,因此特別適用於圖像、語音與其他具有空間特徵的資料。整體而言,CNN 更適合處理具結構性的視覺資料,MLP 則適合較簡單的非空間性資料分析。
________________________________________
🔬 結構預覽(以 LeNet 為例):
輸入圖像 28x28
→ 卷積層1(提取邊緣)
→ 池化層1(降維)
→ 卷積層2(學形狀)
→ 池化層2
→ 全連接層
→ 輸出層(分類)
🖼️ 輸入層(28x28 圖像)
▼
🔍 卷積層1(提取邊緣與局部特徵)
▼
🔽 池化層1(降低維度與計算量)
▼
🔍 卷積層2(學習更高層次的形狀與結構)
▼
🔽 池化層2(再次降維,強化關鍵特徵)
▼
🔗 全連接層(轉換為分類特徵向量)
▼
🎯 輸出層(分類結果,如0~9數字)
這樣的架構設計能由淺入深提取圖像特徵,先抓邊緣、再學形狀,最後透過全連接層完成分類,是經典的圖像識別神經網路結構。LeNet 為後來如 AlexNet、VGG 的發展奠定了基礎。
________________________________________
✅ 小結與啟示:
✅ CNN = 讓電腦從「數字向量」走向「理解圖像」的關鍵技術
✅ 捲積讓模型具備局部感知與特徵抽象的能力,是影像、聲音處理的核心基石
✅ CNN 模型結構靈活,從 LeNet 到 ResNet、MobileNet 等均建立於同一原理之上