VGGNet

更新於 發佈於 閱讀時間約 5 分鐘

VGGNet 是由牛津大學視覺幾何組 (Visual Geometry Group) 在 2014 年提出的深度卷積神經網路 (CNN) 架構。它在當年的 ImageNet 大型視覺識別挑戰賽 (ILSVRC) 中取得了出色的成績,並且因其簡單而深邃的網路結構而聞名。VGGNet 的主要貢獻在於證明了網路的深度對於提升 CNN 的性能至關重要。

以下是 VGGNet 的主要特點和架構:

  • 非常深的網路結構: VGGNet 相較於之前的 AlexNet,顯著增加了網路的深度。它提出了多種不同的網路配置,最常見的有 VGG16 和 VGG19,分別包含 16 個和 19 個卷積層或全連接層。
  • 小尺寸的卷積核: VGGNet 的一個核心設計原則是始終使用 3x3 的小尺寸卷積核。多個連續的 3x3 卷積層堆疊在一起,可以達到與更大尺寸卷積核相同的感受野,同時擁有更多的非線性激活函數(ReLU),並減少了參數數量。例如,三個連續的 3x3 卷積層的感受野為 7x7,但參數數量比一個 7x7 的卷積層要少。
  • 統一的最大池化層: 在每兩個或三個卷積層之後,VGGNet 使用 2x2 的最大池化層,步長為 2,用於降低特徵圖的空間尺寸。
  • 簡單的網路結構: 相較於其他同期的網路,VGGNet 的結構相對簡單和規整,易於理解和實現。它主要由重複堆疊的小尺寸卷積層和最大池化層組成,最後連接幾個全連接層。

VGGNet 的主要網路配置 (以 VGG16 為例):

VGGNet 有多種不同的配置,它們的主要區別在於網路的深度(卷積層的數量)。以下是 VGG16 的一個常見配置:

  1. Input (224x224x3)
  2. Convolutional Layer (64 filters, 3x3 kernel, stride 1, pad 1) x 2
  3. Max Pooling (2x2 kernel, stride 2)
  4. Convolutional Layer (128 filters, 3x3 kernel, stride 1, pad 1) x 2
  5. Max Pooling (2x2 kernel, stride 2)
  6. Convolutional Layer (256 filters, 3x3 kernel, stride 1, pad 1) x 3
  7. Max Pooling (2x2 kernel, stride 2)
  8. Convolutional Layer (512 filters, 3x3 kernel, stride 1, pad 1) x 3
  9. Max Pooling (2x2 kernel, stride 2)
  10. Convolutional Layer (512 filters, 3x3 kernel, stride 1, pad 1) x 3
  11. Max Pooling (2x2 kernel, stride 2)
  12. Fully Connected Layer (4096 neurons, ReLU)
  13. Fully Connected Layer (4096 neurons, ReLU)
  14. Output Layer (1000 neurons, Softmax)

VGG19 的結構類似,只是在一些卷積層塊中增加了更多的卷積層。

VGGNet 的重要性:

  • 證明了深度是提升性能的關鍵: VGGNet 的成功有力地證明了增加網路深度可以顯著提高 CNN 在圖像識別任務上的性能。
  • 推廣了小卷積核的使用: VGGNet 提出的使用小尺寸卷積核的思想被廣泛採用,並成為了後續許多 CNN 架構的設計原則。
  • 成為了基準模型: 由於其結構的簡潔性和良好的性能,VGGNet 在很長一段時間內被作為電腦視覺任務的基準模型,用於比較不同方法的性能。
  • 易於理解和遷移學習: VGGNet 的結構相對清晰,易於理解和實現。預訓練好的 VGGNet 模型也被廣泛用於遷移學習,作為其他電腦視覺任務的良好起點。

缺點:

  • 參數量巨大: 由於網路層數較深且全連接層的節點數較多,VGGNet 的參數量非常龐大,需要更多的訓練數據和計算資源。
  • 計算成本高: 深度的網路結構也導致了較高的計算成本和更長的訓練時間。

總而言之,VGGNet 是一個在電腦視覺發展史上非常重要的模型。它通過實驗證明了網路深度對於提升圖像識別性能的重要性,並推廣了小尺寸卷積核的使用,為後續更深、更強大的 CNN 架構的出現奠定了基礎。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
18會員
480內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)
2025/05/27
資料增強 (Data Augmentation) 是一種在機器學習和深度學習中常用的提高模型泛化能力和魯棒性的技術。它的核心思想是通過對現有的訓練數據進行隨機的、合理的變換,生成更多樣化的訓練樣本。這樣做的目的是讓模型在訓練過程中接觸到更多不同的數據變異情況,從而減少過擬合的風險,並提升模型在未見過
2025/05/27
資料增強 (Data Augmentation) 是一種在機器學習和深度學習中常用的提高模型泛化能力和魯棒性的技術。它的核心思想是通過對現有的訓練數據進行隨機的、合理的變換,生成更多樣化的訓練樣本。這樣做的目的是讓模型在訓練過程中接觸到更多不同的數據變異情況,從而減少過擬合的風險,並提升模型在未見過
2025/05/27
模型壓縮與加速是為了讓已經訓練好的深度學習模型在資源受限的環境中(例如:手機、嵌入式設備、邊緣計算設備)能夠更高效地運行而採取的一系列技術和方法。這些技術旨在減小模型的大小、降低計算複雜度,並加快模型的推理速度,同時盡可能地保持模型的準確性。 為什麼需要模型壓縮與加速? 資源限制: 許多應用場景
2025/05/27
模型壓縮與加速是為了讓已經訓練好的深度學習模型在資源受限的環境中(例如:手機、嵌入式設備、邊緣計算設備)能夠更高效地運行而採取的一系列技術和方法。這些技術旨在減小模型的大小、降低計算複雜度,並加快模型的推理速度,同時盡可能地保持模型的準確性。 為什麼需要模型壓縮與加速? 資源限制: 許多應用場景
2025/05/27
圖像分割模型是一種電腦視覺模型,旨在將圖像中的每個像素分配到一個特定的類別或區域。與物件偵測模型(識別物體並用邊界框標示)不同,圖像分割模型提供的是像素級別的精細化理解,能夠精確地劃分出圖像中每個物體的輪廓和範圍。 圖像分割的目標是為圖像中的每個像素都貼上一個標籤,表明該像素屬於哪個類別。這使得我
2025/05/27
圖像分割模型是一種電腦視覺模型,旨在將圖像中的每個像素分配到一個特定的類別或區域。與物件偵測模型(識別物體並用邊界框標示)不同,圖像分割模型提供的是像素級別的精細化理解,能夠精確地劃分出圖像中每個物體的輪廓和範圍。 圖像分割的目標是為圖像中的每個像素都貼上一個標籤,表明該像素屬於哪個類別。這使得我
看更多
你可能也想看
Thumbnail
常常被朋友問「哪裡買的?」嗎?透過蝦皮分潤計畫,把日常購物的分享多加一個步驟,就能轉換成現金回饋。門檻低、申請簡單,特別適合學生與上班族,讓零碎時間也能創造小確幸。
Thumbnail
常常被朋友問「哪裡買的?」嗎?透過蝦皮分潤計畫,把日常購物的分享多加一個步驟,就能轉換成現金回饋。門檻低、申請簡單,特別適合學生與上班族,讓零碎時間也能創造小確幸。
Thumbnail
前言 承上一篇筆記文章,繼續閱讀推薦的第二篇論文:Identity Mappings in Deep Residual Networks—Kaiming He、Xiangyu Zhang、Shaoqing Ren、Jian Sun。也是一樣的發表者,內容是對他們之前發表的Deep Residual
Thumbnail
前言 承上一篇筆記文章,繼續閱讀推薦的第二篇論文:Identity Mappings in Deep Residual Networks—Kaiming He、Xiangyu Zhang、Shaoqing Ren、Jian Sun。也是一樣的發表者,內容是對他們之前發表的Deep Residual
Thumbnail
科技巨擘聯手推進生成式AI發展 開創人工智慧新時代 在生成式人工智慧(Generative AI)的浪潮中,雲端運算龍頭AWS和晶片巨擘NVIDIA攜手合作,推出一系列革命性的基礎設施、軟體和服務。
Thumbnail
科技巨擘聯手推進生成式AI發展 開創人工智慧新時代 在生成式人工智慧(Generative AI)的浪潮中,雲端運算龍頭AWS和晶片巨擘NVIDIA攜手合作,推出一系列革命性的基礎設施、軟體和服務。
Thumbnail
人工智慧的浪潮正在席捲全球,而生成式AI更是成為當前最炙手可熱的焦點。透過強大的計算能力和創新的算法,生成式AI可以生成逼真的圖像、文字和語音,為各個領域帶來前所未有的創新和突破。
Thumbnail
人工智慧的浪潮正在席捲全球,而生成式AI更是成為當前最炙手可熱的焦點。透過強大的計算能力和創新的算法,生成式AI可以生成逼真的圖像、文字和語音,為各個領域帶來前所未有的創新和突破。
Thumbnail
在科技發展的浪潮中,生成式AI無疑是引領未來的關鍵力量。透過深度學習技術,AI系統能夠從大量資料中發掘規律,並創造出全新的內容,無論是文字、圖像、音頻還是視頻,都可以在AI的加持下重新定義。
Thumbnail
在科技發展的浪潮中,生成式AI無疑是引領未來的關鍵力量。透過深度學習技術,AI系統能夠從大量資料中發掘規律,並創造出全新的內容,無論是文字、圖像、音頻還是視頻,都可以在AI的加持下重新定義。
Thumbnail
感知器是一種基本的神經網路模型,用於二分類問題。它模擬了人腦神經元的工作原理,通過調整權重和偏差值來達到預測和分類的目的。 感知器流程 輸入 資料的輸入: 輸入層接受資料的輸入,每個輸入對應一個特徵,還有一個固定的偏差神經元。 資料經過每個神經元時,會乘上相應的
Thumbnail
感知器是一種基本的神經網路模型,用於二分類問題。它模擬了人腦神經元的工作原理,通過調整權重和偏差值來達到預測和分類的目的。 感知器流程 輸入 資料的輸入: 輸入層接受資料的輸入,每個輸入對應一個特徵,還有一個固定的偏差神經元。 資料經過每個神經元時,會乘上相應的
Thumbnail
在現今這個信息爆炸的時代,我們如何解讀信息對世界的影響?
Thumbnail
在現今這個信息爆炸的時代,我們如何解讀信息對世界的影響?
Thumbnail
2024 年3月19日至22日,由Nvidia 黃仁勳主導的GTC 技術大會在美國聖荷西舉行。這次大會以「加速未來」為主題,展示了人工智慧、深度學習、自動駕駛汽車和全新 Blackwell 架構的最新突破。本次發表會揭示了多項創新,對教育科技領域帶來了前所未有的機會和挑戰。
Thumbnail
2024 年3月19日至22日,由Nvidia 黃仁勳主導的GTC 技術大會在美國聖荷西舉行。這次大會以「加速未來」為主題,展示了人工智慧、深度學習、自動駕駛汽車和全新 Blackwell 架構的最新突破。本次發表會揭示了多項創新,對教育科技領域帶來了前所未有的機會和挑戰。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News