第二部:《深度學習》21/100 CNN 的誕生與應用 👁‍🗨 讓電腦學會「看」!

更新於 發佈於 閱讀時間約 5 分鐘

AI時代系列(2) 機器學習三部曲: 🔹 第二部:《深度學習 —— 神經網路的革命》

21/100 第三週:📌 卷積神經網路 CNN

21.CNN 的誕生與應用 👁‍🗨 讓電腦學會「看」!

______________________________________

✅ 為什麼需要 CNN?

多層感知器(MLP)雖然能分類,但無法有效處理圖像。

📌 問題一:圖片資料維度太高,參數數量爆炸

📌 問題二:全連接網路忽略「空間關係」

📌 問題三:圖像有位置平移、旋轉等變化,MLP 無法辨認

🎯 解決方案就是 CNN——一種模仿視覺皮質神經元結構的深度學習架構。

________________________________________

🧠 CNN 的靈感來源

1980 年代,神經科學家發現:人類視覺皮質會辨認局部特徵(邊緣、線條),再逐層組合出整體意象。

Yann LeCun 於 1998 年發明 LeNet-5,首次成功用 CNN 識別手寫數字,從此開啟 AI 視覺革命!

________________________________________

🔍 CNN 的關鍵特色:

區域感受野:僅關注圖片局部,能大幅減少參數並聚焦特徵。 參數共享:同一組濾波器在整張圖上滑動,提高計算效率與泛化能力。 空間不變性:可辨認「出現了什麼特徵」,而不侷限於「出現在哪裡」。 層層堆疊學習:第一層學邊緣 → 第二層學形狀 → 第三層學物體 → 最後輸出分類。

________________________________________

📸 CNN 應用場景大爆發!

應用領域 實例說明

👁 圖像辨識 手寫字體、貓狗辨識、安防監控、交通標誌識別

🎥 影像分類 影片場景判讀、人臉辨識、醫療影像診斷

🖼 風格轉換 把照片轉成畫作風格(Neural Style Transfer)

🚗 自動駕駛 車道辨識、障礙物辨識、交通號誌偵測等

📱 手機應用 自拍美顏、即時濾鏡、影像搜尋、AR 識別

________________________________________

🧩 CNN vs MLP 對比

MLP(多層感知器)與 CNN(卷積神經網路)是兩種常見的神經網路架構,適用於不同類型的資料與任務。MLP 將輸入資料展平成向量,無法保留原始的空間結構,參數量較多,適合用於處理表格型結構化資料或簡單分類任務;而 CNN 則能保留輸入的 2D 或 3D 空間資訊,透過捲積層進行參數共享,有效減少參數並具備空間感知能力,能辨識圖像中的邊緣、紋理與局部圖案,因此特別適用於圖像、語音與其他具有空間特徵的資料。整體而言,CNN 更適合處理具結構性的視覺資料,MLP 則適合較簡單的非空間性資料分析。

________________________________________

🔬 結構預覽(以 LeNet 為例):

輸入圖像 28x28

→ 卷積層1(提取邊緣)

→ 池化層1(降維)

→ 卷積層2(學形狀)

→ 池化層2

→ 全連接層

→ 輸出層(分類)

🖼️ 輸入層(28x28 圖像)

🔍 卷積層1(提取邊緣與局部特徵)

🔽 池化層1(降低維度與計算量)

🔍 卷積層2(學習更高層次的形狀與結構)

🔽 池化層2(再次降維,強化關鍵特徵)

🔗 全連接層(轉換為分類特徵向量)

🎯 輸出層(分類結果,如0~9數字)

這樣的架構設計能由淺入深提取圖像特徵,先抓邊緣、再學形狀,最後透過全連接層完成分類,是經典的圖像識別神經網路結構。LeNet 為後來如 AlexNet、VGG 的發展奠定了基礎。

________________________________________

✅ 小結與啟示:

✅ CNN = 讓電腦從「數字向量」走向「理解圖像」的關鍵技術

✅ 捲積讓模型具備局部感知與特徵抽象的能力,是影像、聲音處理的核心基石

✅ CNN 模型結構靈活,從 LeNet 到 ResNet、MobileNet 等均建立於同一原理之上



留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
8會員
148內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/09/04
第二週聚焦多層感知器(MLP)的訓練技巧:分類任務用交叉熵、迴歸用均方誤差;採用 Mini-Batch 提升效率與穩定性;權重初始化選 Xavier 或 He,避免梯度問題;透過早停與模型保存防止過擬合並保留最佳版本;加入 Dropout 增強泛化能力。
2025/09/04
第二週聚焦多層感知器(MLP)的訓練技巧:分類任務用交叉熵、迴歸用均方誤差;採用 Mini-Batch 提升效率與穩定性;權重初始化選 Xavier 或 He,避免梯度問題;透過早停與模型保存防止過擬合並保留最佳版本;加入 Dropout 增強泛化能力。
2025/09/04
Dropout 是防止過擬合的正則化技巧,訓練時隨機關閉部分神經元,迫使模型學習更通用的特徵,提升泛化能力。推論時會啟用所有神經元並縮放輸出,保持一致性。常見比例:MLP 0.20.5,CNN 0.10.3,RNN 可用 recurrent_dropout。
2025/09/04
Dropout 是防止過擬合的正則化技巧,訓練時隨機關閉部分神經元,迫使模型學習更通用的特徵,提升泛化能力。推論時會啟用所有神經元並縮放輸出,保持一致性。常見比例:MLP 0.20.5,CNN 0.10.3,RNN 可用 recurrent_dropout。
2025/09/04
早停法與模型保存是避免過度訓練的關鍵策略。早停能在驗證集表現連續數輪未改善時自動中止訓練,防止過擬合;模型保存則確保最佳權重被記錄,不會被後續結果覆蓋。兩者結合能節省時間、保留最佳版本,方便後續部署與跨平台應用,是深度學習實務中最成熟且必要的訓練技巧。
2025/09/04
早停法與模型保存是避免過度訓練的關鍵策略。早停能在驗證集表現連續數輪未改善時自動中止訓練,防止過擬合;模型保存則確保最佳權重被記錄,不會被後續結果覆蓋。兩者結合能節省時間、保留最佳版本,方便後續部署與跨平台應用,是深度學習實務中最成熟且必要的訓練技巧。
看更多
你可能也想看
Thumbnail
常常被朋友問「哪裡買的?」嗎?透過蝦皮分潤計畫,把日常購物的分享多加一個步驟,就能轉換成現金回饋。門檻低、申請簡單,特別適合學生與上班族,讓零碎時間也能創造小確幸。
Thumbnail
常常被朋友問「哪裡買的?」嗎?透過蝦皮分潤計畫,把日常購物的分享多加一個步驟,就能轉換成現金回饋。門檻低、申請簡單,特別適合學生與上班族,讓零碎時間也能創造小確幸。
Thumbnail
人工智能:革命性技術的崛起與挑戰 1. 什麼是人工智能? 人工智能(AI)是指由人類創造的機器或系統,能夠模仿人類智能,執行通常需要人類智能才能完成的任務。這包括學習、問題解決、語言理解、視覺感知等能力。AI系統可以處理大量數據,識別模式,並根據這些信息做出決策或預測。 2.
Thumbnail
人工智能:革命性技術的崛起與挑戰 1. 什麼是人工智能? 人工智能(AI)是指由人類創造的機器或系統,能夠模仿人類智能,執行通常需要人類智能才能完成的任務。這包括學習、問題解決、語言理解、視覺感知等能力。AI系統可以處理大量數據,識別模式,並根據這些信息做出決策或預測。 2.
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
AI的世界充滿了創新和潛力,涵蓋了許多領域,包括但不限於機器學習,自然語言處理、電腦視覺和機器人技術。AI對人類社會的影響是複雜而多層面的,既帶來了巨大的機遇,也提出了新的挑戰。社會需要在技術發展和倫理規範之間找到平衡,確保AI技術的應用能夠真正造福人類。
Thumbnail
AI的世界充滿了創新和潛力,涵蓋了許多領域,包括但不限於機器學習,自然語言處理、電腦視覺和機器人技術。AI對人類社會的影響是複雜而多層面的,既帶來了巨大的機遇,也提出了新的挑戰。社會需要在技術發展和倫理規範之間找到平衡,確保AI技術的應用能夠真正造福人類。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
在科技發展的浪潮中,生成式AI無疑是引領未來的關鍵力量。透過深度學習技術,AI系統能夠從大量資料中發掘規律,並創造出全新的內容,無論是文字、圖像、音頻還是視頻,都可以在AI的加持下重新定義。
Thumbnail
在科技發展的浪潮中,生成式AI無疑是引領未來的關鍵力量。透過深度學習技術,AI系統能夠從大量資料中發掘規律,並創造出全新的內容,無論是文字、圖像、音頻還是視頻,都可以在AI的加持下重新定義。
Thumbnail
1986 年,人工智慧的崛起,神經網路的出現。人工神經網路發展遭遇挑戰,直到 2006 年由Hinton提出限制玻爾茲曼機與深度信念網絡,重新點燃熱情。2018年,Hinton獲得圖靈獎。近年,Hinton持續關注AI帶來的危險,力促人們關注。
Thumbnail
1986 年,人工智慧的崛起,神經網路的出現。人工神經網路發展遭遇挑戰,直到 2006 年由Hinton提出限制玻爾茲曼機與深度信念網絡,重新點燃熱情。2018年,Hinton獲得圖靈獎。近年,Hinton持續關注AI帶來的危險,力促人們關注。
Thumbnail
在數位化的世界中,用戶介面和信息圖表等視覺元素扮演著越來越重要的角色,而ScreenAI的開發為自然語言處理和計算機視覺的融合開啟了新的可能性。
Thumbnail
在數位化的世界中,用戶介面和信息圖表等視覺元素扮演著越來越重要的角色,而ScreenAI的開發為自然語言處理和計算機視覺的融合開啟了新的可能性。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News