第二部:《深度學習》22/100 卷積層原理 🧩 濾鏡滑動提取圖像特徵!

更新於 發佈於 閱讀時間約 7 分鐘

AI時代系列(2) 機器學習三部曲: 🔹 第二部:《深度學習 —— 神經網路的革命》

22/100 第三週:📌 卷積神經網路 CNN

22.卷積層原理 🧩 濾鏡滑動提取圖像特徵!

________________________________________

✅ 什麼是「卷積層」?

卷積層是 CNN 的核心,它利用濾鏡(Filter / Kernel)在圖片上滑動,提取圖像中如邊緣、紋理、角度等局部特徵。

📌 卷積的關鍵行為:

濾鏡:一組小矩陣(如 3×3、5×5)

滑動:在輸入圖像上從左到右、從上到下移動

每次移動:計算濾鏡與對應區域的「元素乘積總和」

輸出:稱為特徵圖(Feature Map)

________________________________________

🧠 類比理解:

濾鏡就像是「圖片掃描器」,它看一小塊、記住邊緣或紋路,然後走一步,再掃下一格,最終拼出一張「特徵地圖」。

________________________________________

🧩 卷積計算示意:

🎯 原始輸入(5×5 圖像):

1 2 0 3 1

4 1 0 1 2

1 3 2 2 0

0 1 3 1 1

2 2 0 0 3

🔍 3×3 濾鏡:

1 0 -1

1 0 -1

1 0 -1

🔁 卷積運算結果(步幅=1,不加 padding):

每次以 3×3 區塊乘上濾鏡 → 得出一數值

最終輸出為 3×3 特徵圖

________________________________________

⚙️ 超參數說明:

在卷積神經網路(CNN)中,卷積層的幾個重要參數會直接影響特徵提取的方式與輸出形狀。

🖼️ 輸入圖像(28x28)

🔲 Kernel Size(濾鏡大小):

📏 例如 3x3 或 5x5 → 決定每次看的區域大小

⛏️ 濾鏡像放大鏡一樣滑過圖像局部

➡️ Stride(步幅):

👣 Stride=1:每次移動一格(較細緻)

🦘 Stride=2:每次跳一格(降解析度)

🧱 Padding(邊界補零):

▫️ same:補零 → 輸出與輸入同尺寸

▫️ valid:不補 → 輸出變小但更精簡

🎨 Filters(濾鏡數量):

🎭 每個濾鏡學一種特徵(邊緣、紋理、形狀)

📦 輸出深度 = 濾鏡數,例如 32 → 輸出是 28x28x32

📤 輸出 Feature Map(特徵圖)

這些設定控制了 CNN 對圖像的掃描方式與學習能力,是設計深度學習視覺模型時的關鍵元件。

________________________________________

📦 TensorFlow / Keras 實作:

python

from tensorflow.keras import layers

model = tf.keras.Sequential([

layers.Conv2D(filters=32, kernel_size=(3, 3),

strides=1, padding='same',

activation='relu', input_shape=(28, 28, 1))

])

這段程式碼使用 Keras 建立了一個簡單的卷積神經網路模型,包含一層 Conv2D 卷積層。該層使用 32 個 3x3 濾鏡,步幅為 1,並設定 padding='same',表示輸出尺寸與輸入保持一致(28x28)。激活函數採用 ReLU,有助於引入非線性並促進收斂;input_shape=(28, 28, 1) 表示輸入為 28x28 的灰階圖像。這層可有效提取局部邊緣與紋理特徵,常作為 CNN 結構的起始層。

_______________________________________

📸 實際效果圖例:

卷積神經網路中的濾鏡會自動學習提取不同類型的特徵圖,幫助模型理解圖像內容。邊緣濾鏡能突顯物體的輪廓與邊界變化,是辨識形狀的基礎;水平或垂直濾鏡專注於掃描橫向或縱向的直線結構,有助於偵測文字或建築線條;紋理濾鏡則能識別圖像中的表面細節,例如動物的毛髮或物體的材質粗細。這些濾鏡在訓練過程中由模型自動學得,是 CNN 能成功進行影像辨識的關鍵所在。

________________________________________

📊 卷積層優勢:

卷積神經網路(CNN)具備多項優勢,使其特別適合處理圖像資料。透過局部感知能力,每個濾鏡專注於圖像的一小區域,能精準學習細節特徵;參數共享機制讓同一濾鏡在整張圖上滑動,大幅降低參數量並提升運算效率;同時,CNN 具備空間不變性,即使物件在圖中移動或旋轉,仍能穩定辨識;此外,透過多層堆疊,模型能從低階邊緣開始,逐步學習形狀、紋理,甚至高階語意概念,形成具層次的強大特徵表示能力。

________________________________________

🧠 對比 MLP 的強大之處:

相較於 MLP(多層感知器),CNN(卷積神經網路)在處理圖像任務上具有明顯優勢。MLP 採用全連接層結構,所有輸入都需連接至每個神經元,參數量龐大,且圖像需先扁平化為一維向量,導致空間資訊流失;反之,CNN 採用卷積→池化→展平→全連接的層次結構,透過濾鏡共享大幅減少參數,並保留圖像的空間特性,能有效提取邊緣、紋理、形狀等視覺特徵,因此在圖像辨識、物體檢測等任務中表現遠優於 MLP。

________________________________________

🎯 小結與啟示:

✅ 卷積層讓神經網路不只是分類器,而是「看圖說話的視覺系統」

✅ 透過滑動濾鏡,我們可以擷取圖像的邊緣、紋理、形狀與結構

✅ CNN 的真正威力來自「卷積 + 深度堆疊 + 空間感知」


留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
8會員
138內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/09/04
卷積神經網路(CNN)模仿人類視覺皮質,利用區域感受野、參數共享與層層堆疊學習特徵,能有效降低參數並保留空間資訊,克服 MLP 處理影像的不足。代表性模型 LeNet-5 開啟影像辨識革命,後續 CNN 廣泛應用於圖像分類、醫療診斷、自動駕駛與手機應用,成為深度學習處理視覺與語音資料的核心技術。
2025/09/04
卷積神經網路(CNN)模仿人類視覺皮質,利用區域感受野、參數共享與層層堆疊學習特徵,能有效降低參數並保留空間資訊,克服 MLP 處理影像的不足。代表性模型 LeNet-5 開啟影像辨識革命,後續 CNN 廣泛應用於圖像分類、醫療診斷、自動駕駛與手機應用,成為深度學習處理視覺與語音資料的核心技術。
2025/09/04
第二週聚焦多層感知器(MLP)的訓練技巧:分類任務用交叉熵、迴歸用均方誤差;採用 Mini-Batch 提升效率與穩定性;權重初始化選 Xavier 或 He,避免梯度問題;透過早停與模型保存防止過擬合並保留最佳版本;加入 Dropout 增強泛化能力。
2025/09/04
第二週聚焦多層感知器(MLP)的訓練技巧:分類任務用交叉熵、迴歸用均方誤差;採用 Mini-Batch 提升效率與穩定性;權重初始化選 Xavier 或 He,避免梯度問題;透過早停與模型保存防止過擬合並保留最佳版本;加入 Dropout 增強泛化能力。
2025/09/04
Dropout 是防止過擬合的正則化技巧,訓練時隨機關閉部分神經元,迫使模型學習更通用的特徵,提升泛化能力。推論時會啟用所有神經元並縮放輸出,保持一致性。常見比例:MLP 0.20.5,CNN 0.10.3,RNN 可用 recurrent_dropout。
2025/09/04
Dropout 是防止過擬合的正則化技巧,訓練時隨機關閉部分神經元,迫使模型學習更通用的特徵,提升泛化能力。推論時會啟用所有神經元並縮放輸出,保持一致性。常見比例:MLP 0.20.5,CNN 0.10.3,RNN 可用 recurrent_dropout。
看更多
你可能也想看
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
本文參考TensorFlow官網Deep Convolutional Generative Adversarial Network的程式碼來加以實作說明。 示範如何使用深度卷積生成對抗網路(DCGAN) 生成手寫數位影像。
Thumbnail
本文參考TensorFlow官網Deep Convolutional Generative Adversarial Network的程式碼來加以實作說明。 示範如何使用深度卷積生成對抗網路(DCGAN) 生成手寫數位影像。
Thumbnail
本文將延續上一篇文章,經由訓練好的GAN模型中的生成器來生成圖片 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 [深度學習][Python]訓練CNN的GAN模型來生成圖片_訓練篇 相較之下CNN的GAN生成的效果比較好,但模型也相對比較複雜,訓練時間花的也比較
Thumbnail
本文將延續上一篇文章,經由訓練好的GAN模型中的生成器來生成圖片 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 [深度學習][Python]訓練CNN的GAN模型來生成圖片_訓練篇 相較之下CNN的GAN生成的效果比較好,但模型也相對比較複雜,訓練時間花的也比較
Thumbnail
延續上一篇訓練GAM模型,這次我們讓神經網路更多層更複雜一點,來看訓練生成的圖片是否效果會更好。 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 資料集分割處理的部分在延續上篇文章,從第五點開始後修改即可,前面都一樣 訓練過程,比較圖 是不是CNN的效果比MLP還要好,
Thumbnail
延續上一篇訓練GAM模型,這次我們讓神經網路更多層更複雜一點,來看訓練生成的圖片是否效果會更好。 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 資料集分割處理的部分在延續上篇文章,從第五點開始後修改即可,前面都一樣 訓練過程,比較圖 是不是CNN的效果比MLP還要好,
Thumbnail
透過這篇文章,我們將瞭解如何使用PyTorch實作圖神經網絡中的訊息傳遞機制,從定義消息傳遞的類別到實作消息傳遞過程。我們也探討了各種不同的消息傳遞機制,並通過對單次和多次傳遞過程的結果,可以看到節點特徵如何逐步傳遞與更新。
Thumbnail
透過這篇文章,我們將瞭解如何使用PyTorch實作圖神經網絡中的訊息傳遞機制,從定義消息傳遞的類別到實作消息傳遞過程。我們也探討了各種不同的消息傳遞機制,並通過對單次和多次傳遞過程的結果,可以看到節點特徵如何逐步傳遞與更新。
Thumbnail
本篇文章專注於消息傳遞(message passing)在圖神經網絡(GNN)中的應用,並以簡單的例子解釋了消息傳遞的過程和機制。
Thumbnail
本篇文章專注於消息傳遞(message passing)在圖神經網絡(GNN)中的應用,並以簡單的例子解釋了消息傳遞的過程和機制。
Thumbnail
GNN發展背景 傳統的深度學習模型如在計算機視覺(CV)和自然語言處理(NLP)領域中極為成功,主要是處理結構化數據如影像和文本。這些數據類型通常具有固定且規律的結構,例如影像是由有序的像素點組成。然而,在真實世界中,許多數據是非結構化的,如化合物結構(原子和分子)。這些數據雖然具有一定的規則性,
Thumbnail
GNN發展背景 傳統的深度學習模型如在計算機視覺(CV)和自然語言處理(NLP)領域中極為成功,主要是處理結構化數據如影像和文本。這些數據類型通常具有固定且規律的結構,例如影像是由有序的像素點組成。然而,在真實世界中,許多數據是非結構化的,如化合物結構(原子和分子)。這些數據雖然具有一定的規則性,
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News