VGGNet

更新於 2025/08/08發佈於 2025/05/27閱讀時間約 5 分鐘

VGGNet 是由牛津大學視覺幾何組 (Visual Geometry Group) 在 2014 年提出的深度卷積神經網路 (CNN) 架構。它在當年的 ImageNet 大型視覺識別挑戰賽 (ILSVRC) 中取得了出色的成績，並且因其簡單而深邃的網路結構而聞名。VGGNet 的主要貢獻在於證明了網路的深度對於提升 CNN 的性能至關重要。

以下是 VGGNet 的主要特點和架構：

非常深的網路結構: VGGNet 相較於之前的 AlexNet，顯著增加了網路的深度。它提出了多種不同的網路配置，最常見的有 VGG16 和 VGG19，分別包含 16 個和 19 個卷積層或全連接層。
小尺寸的卷積核: VGGNet 的一個核心設計原則是始終使用 3x3 的小尺寸卷積核。多個連續的 3x3 卷積層堆疊在一起，可以達到與更大尺寸卷積核相同的感受野，同時擁有更多的非線性激活函數（ReLU），並減少了參數數量。例如，三個連續的 3x3 卷積層的感受野為 7x7，但參數數量比一個 7x7 的卷積層要少。
統一的最大池化層: 在每兩個或三個卷積層之後，VGGNet 使用 2x2 的最大池化層，步長為 2，用於降低特徵圖的空間尺寸。
簡單的網路結構: 相較於其他同期的網路，VGGNet 的結構相對簡單和規整，易於理解和實現。它主要由重複堆疊的小尺寸卷積層和最大池化層組成，最後連接幾個全連接層。

VGGNet 的主要網路配置 (以 VGG16 為例):

VGGNet 有多種不同的配置，它們的主要區別在於網路的深度（卷積層的數量）。以下是 VGG16 的一個常見配置：

Input (224x224x3)
Convolutional Layer (64 filters, 3x3 kernel, stride 1, pad 1) x 2
Max Pooling (2x2 kernel, stride 2)
Convolutional Layer (128 filters, 3x3 kernel, stride 1, pad 1) x 2
Max Pooling (2x2 kernel, stride 2)
Convolutional Layer (256 filters, 3x3 kernel, stride 1, pad 1) x 3
Max Pooling (2x2 kernel, stride 2)
Convolutional Layer (512 filters, 3x3 kernel, stride 1, pad 1) x 3
Max Pooling (2x2 kernel, stride 2)
Convolutional Layer (512 filters, 3x3 kernel, stride 1, pad 1) x 3
Max Pooling (2x2 kernel, stride 2)
Fully Connected Layer (4096 neurons, ReLU)
Fully Connected Layer (4096 neurons, ReLU)
Output Layer (1000 neurons, Softmax)

VGG19 的結構類似，只是在一些卷積層塊中增加了更多的卷積層。

VGGNet 的重要性:

證明了深度是提升性能的關鍵: VGGNet 的成功有力地證明了增加網路深度可以顯著提高 CNN 在圖像識別任務上的性能。
推廣了小卷積核的使用: VGGNet 提出的使用小尺寸卷積核的思想被廣泛採用，並成為了後續許多 CNN 架構的設計原則。
成為了基準模型: 由於其結構的簡潔性和良好的性能，VGGNet 在很長一段時間內被作為電腦視覺任務的基準模型，用於比較不同方法的性能。
易於理解和遷移學習: VGGNet 的結構相對清晰，易於理解和實現。預訓練好的 VGGNet 模型也被廣泛用於遷移學習，作為其他電腦視覺任務的良好起點。

缺點:

參數量巨大: 由於網路層數較深且全連接層的節點數較多，VGGNet 的參數量非常龐大，需要更多的訓練數據和計算資源。
計算成本高: 深度的網路結構也導致了較高的計算成本和更長的訓練時間。

總而言之，VGGNet 是一個在電腦視覺發展史上非常重要的模型。它通過實驗證明了網路深度對於提升圖像識別性能的重要性，並推廣了小尺寸卷積核的使用，為後續更深、更強大的 CNN 架構的出現奠定了基礎。

含 AI 應用內容

郝信華 iPAS AI應用規劃師學習筆記電腦視覺技術與應用電腦視覺模型與架構

留言

留言分享你的想法！

郝信華 iPAS AI應用規劃師學習筆記

18會員

480內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/05/27

資料增強 (Data Augmentation)

資料增強 (Data Augmentation) 是一種在機器學習和深度學習中常用的提高模型泛化能力和魯棒性的技術。它的核心思想是通過對現有的訓練數據進行隨機的、合理的變換，生成更多樣化的訓練樣本。這樣做的目的是讓模型在訓練過程中接觸到更多不同的數據變異情況，從而減少過擬合的風險，並提升模型在未見過

2025/05/27

資料增強 (Data Augmentation)

2025/05/27

模型壓縮與加速 (Model Compression & Acceleration)

模型壓縮與加速是為了讓已經訓練好的深度學習模型在資源受限的環境中（例如：手機、嵌入式設備、邊緣計算設備）能夠更高效地運行而採取的一系列技術和方法。這些技術旨在減小模型的大小、降低計算複雜度，並加快模型的推理速度，同時盡可能地保持模型的準確性。為什麼需要模型壓縮與加速？資源限制: 許多應用場景

2025/05/27

模型壓縮與加速 (Model Compression & Acceleration)

2025/05/27

圖像分割模型 (Image Segmentation Models)

圖像分割模型是一種電腦視覺模型，旨在將圖像中的每個像素分配到一個特定的類別或區域。與物件偵測模型（識別物體並用邊界框標示）不同，圖像分割模型提供的是像素級別的精細化理解，能夠精確地劃分出圖像中每個物體的輪廓和範圍。圖像分割的目標是為圖像中的每個像素都貼上一個標籤，表明該像素屬於哪個類別。這使得我

2025/05/27

圖像分割模型 (Image Segmentation Models)