AlexNet

更新於 發佈於 閱讀時間約 4 分鐘

AlexNet 是一個在電腦視覺領域具有劃時代意義的深度卷積神經網路 (CNN) 架構,由 Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 共同設計,並在 2012 年的 ImageNet 大型視覺識別挑戰賽 (ILSVRC) 中以巨大的優勢贏得了冠軍。它的出現標誌著深度學習在電腦視覺領域的復興,並開啟了現代 CNN 的時代。

以下是 AlexNet 的主要特點和架構:

  • 八層網路: AlexNet 包含五個卷積層和三個全連接層。
  • ReLU 激活函數 (Rectified Linear Unit): AlexNet 是最早大規模採用 ReLU 作為激活函數的網路之一。ReLU 相較於之前的 Sigmoid 或 Tanh 函數,能夠有效地緩解梯度消失問題,加速模型訓練。
  • 多 GPU 訓練: 為了處理 ImageNet 龐大的數據量和複雜的模型,AlexNet 巧妙地將模型分佈在兩個 NVIDIA GTX 580 GPU 上進行並行訓練。這大大縮短了訓練時間。
  • 局部響應歸一化 (Local Response Normalization, LRN): LRN 是一種在相鄰的卷積核輸出的局部區域進行歸一化的技術,據稱有助於增強模型的泛化能力,但後來的研究表明其作用可能有限。
  • 重疊池化 (Overlapping Pooling): AlexNet 使用了步長小於池化視窗大小的重疊池化操作。作者認為這樣做可以減少過擬合。
  • Dropout: 在全連接層中使用了 Dropout 技術,隨機將一部分神經元的輸出設置為零,以防止過擬合。
  • 大規模數據集: AlexNet 在包含超過 120 萬張圖像和 1000 個類別的 ImageNet 數據集上進行了訓練。

AlexNet 的架構細節 (簡化描述):

  1. 第一卷積層: 輸入為 227x227x3 的 RGB 圖像,使用 96 個大小為 11x11,步長為 4 的卷積核。接著進行 ReLU 激活和 3x3 的最大池化,步長為 2。
  2. 第二卷積層: 使用 256 個大小為 5x5 的卷積核。接著進行 ReLU 激活和 3x3 的最大池化,步長為 2。
  3. 第三卷積層: 使用 384 個大小為 3x3 的卷積核。進行 ReLU 激活。
  4. 第四卷積層: 使用 384 個大小為 3x3 的卷積核。進行 ReLU 激活。
  5. 第五卷積層: 使用 256 個大小為 3x3 的卷積核。接著進行 ReLU 激活和 3x3 的最大池化,步長為 2。
  6. 第一全連接層: 包含 4096 個神經元,並使用 ReLU 激活和 Dropout。
  7. 第二全連接層: 包含 4096 個神經元,並使用 ReLU 激活和 Dropout。
  8. 輸出層: 包含 1000 個神經元 (對應 ImageNet 的 1000 個類別),並使用 Softmax 激活函數輸出每個類別的機率。

AlexNet 的重要性:

  • 證明了深度學習在圖像識別上的巨大潛力: 在 ILSVRC 2012 比賽中,AlexNet 的錯誤率遠遠低於第二名,這讓學術界和工業界重新認識到深度學習的力量。
  • 推動了 CNN 的發展: AlexNet 的成功激發了大量的後續研究,催生了更深、更強大的 CNN 架構,例如 VGG、GoogLeNet、ResNet 等。
  • 加速了電腦視覺的進步: AlexNet 的突破性表現使得電腦視覺技術在各個領域取得了巨大的進展,例如圖像分類、物件偵測、圖像分割等。

總之,AlexNet 是電腦視覺領域的一個里程碑,它的成功標誌著深度學習在圖像識別領域的崛起,並為後續的發展奠定了堅實的基礎。它引入了許多重要的技術和設計理念,至今仍然對電腦視覺的研究和應用產生著深遠的影響。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
18會員
478內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)
2025/05/27
資料增強 (Data Augmentation) 是一種在機器學習和深度學習中常用的提高模型泛化能力和魯棒性的技術。它的核心思想是通過對現有的訓練數據進行隨機的、合理的變換,生成更多樣化的訓練樣本。這樣做的目的是讓模型在訓練過程中接觸到更多不同的數據變異情況,從而減少過擬合的風險,並提升模型在未見過
2025/05/27
資料增強 (Data Augmentation) 是一種在機器學習和深度學習中常用的提高模型泛化能力和魯棒性的技術。它的核心思想是通過對現有的訓練數據進行隨機的、合理的變換,生成更多樣化的訓練樣本。這樣做的目的是讓模型在訓練過程中接觸到更多不同的數據變異情況,從而減少過擬合的風險,並提升模型在未見過
2025/05/27
模型壓縮與加速是為了讓已經訓練好的深度學習模型在資源受限的環境中(例如:手機、嵌入式設備、邊緣計算設備)能夠更高效地運行而採取的一系列技術和方法。這些技術旨在減小模型的大小、降低計算複雜度,並加快模型的推理速度,同時盡可能地保持模型的準確性。 為什麼需要模型壓縮與加速? 資源限制: 許多應用場景
2025/05/27
模型壓縮與加速是為了讓已經訓練好的深度學習模型在資源受限的環境中(例如:手機、嵌入式設備、邊緣計算設備)能夠更高效地運行而採取的一系列技術和方法。這些技術旨在減小模型的大小、降低計算複雜度,並加快模型的推理速度,同時盡可能地保持模型的準確性。 為什麼需要模型壓縮與加速? 資源限制: 許多應用場景
2025/05/27
圖像分割模型是一種電腦視覺模型,旨在將圖像中的每個像素分配到一個特定的類別或區域。與物件偵測模型(識別物體並用邊界框標示)不同,圖像分割模型提供的是像素級別的精細化理解,能夠精確地劃分出圖像中每個物體的輪廓和範圍。 圖像分割的目標是為圖像中的每個像素都貼上一個標籤,表明該像素屬於哪個類別。這使得我
2025/05/27
圖像分割模型是一種電腦視覺模型,旨在將圖像中的每個像素分配到一個特定的類別或區域。與物件偵測模型(識別物體並用邊界框標示)不同,圖像分割模型提供的是像素級別的精細化理解,能夠精確地劃分出圖像中每個物體的輪廓和範圍。 圖像分割的目標是為圖像中的每個像素都貼上一個標籤,表明該像素屬於哪個類別。這使得我
看更多
你可能也想看
Thumbnail
常常被朋友問「哪裡買的?」嗎?透過蝦皮分潤計畫,把日常購物的分享多加一個步驟,就能轉換成現金回饋。門檻低、申請簡單,特別適合學生與上班族,讓零碎時間也能創造小確幸。
Thumbnail
常常被朋友問「哪裡買的?」嗎?透過蝦皮分潤計畫,把日常購物的分享多加一個步驟,就能轉換成現金回饋。門檻低、申請簡單,特別適合學生與上班族,讓零碎時間也能創造小確幸。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
作者認為AI,它不特屬於哪一個產業,在一定時間成熟之後,它充斥你我生活之中,就是像水電一樣的自然。有很多人還搞不清楚它的未來發展到哪裡? 當這變化還很劇烈時,過早投入反而浪費時間與成本,所以作者的洞見是:什麼是你我最珍貴的價值?
Thumbnail
作者認為AI,它不特屬於哪一個產業,在一定時間成熟之後,它充斥你我生活之中,就是像水電一樣的自然。有很多人還搞不清楚它的未來發展到哪裡? 當這變化還很劇烈時,過早投入反而浪費時間與成本,所以作者的洞見是:什麼是你我最珍貴的價值?
Thumbnail
隨著人工智慧技術的快速發展,生成式AI(Generative AI)時代已經來臨。在台北國際電腦展(Computex)上,NVIDIA創辦人暨執行長黃仁勳正式發布了新一代Blackwell GPU架構,標誌著這個新紀元的到來。
Thumbnail
隨著人工智慧技術的快速發展,生成式AI(Generative AI)時代已經來臨。在台北國際電腦展(Computex)上,NVIDIA創辦人暨執行長黃仁勳正式發布了新一代Blackwell GPU架構,標誌著這個新紀元的到來。
Thumbnail
科技巨擘聯手推進生成式AI發展 開創人工智慧新時代 在生成式人工智慧(Generative AI)的浪潮中,雲端運算龍頭AWS和晶片巨擘NVIDIA攜手合作,推出一系列革命性的基礎設施、軟體和服務。
Thumbnail
科技巨擘聯手推進生成式AI發展 開創人工智慧新時代 在生成式人工智慧(Generative AI)的浪潮中,雲端運算龍頭AWS和晶片巨擘NVIDIA攜手合作,推出一系列革命性的基礎設施、軟體和服務。
Thumbnail
人工智慧的浪潮正在席捲全球,而生成式AI更是成為當前最炙手可熱的焦點。透過強大的計算能力和創新的算法,生成式AI可以生成逼真的圖像、文字和語音,為各個領域帶來前所未有的創新和突破。
Thumbnail
人工智慧的浪潮正在席捲全球,而生成式AI更是成為當前最炙手可熱的焦點。透過強大的計算能力和創新的算法,生成式AI可以生成逼真的圖像、文字和語音,為各個領域帶來前所未有的創新和突破。
Thumbnail
在科技發展的浪潮中,生成式AI無疑是引領未來的關鍵力量。透過深度學習技術,AI系統能夠從大量資料中發掘規律,並創造出全新的內容,無論是文字、圖像、音頻還是視頻,都可以在AI的加持下重新定義。
Thumbnail
在科技發展的浪潮中,生成式AI無疑是引領未來的關鍵力量。透過深度學習技術,AI系統能夠從大量資料中發掘規律,並創造出全新的內容,無論是文字、圖像、音頻還是視頻,都可以在AI的加持下重新定義。
Thumbnail
NVIDIA 黃仁勳 - AI人工智慧時代如何帶動全球新產業革命(個人紀錄用) 🇺🇸Omniverse 就是未來集大成,而加速運算、人工智慧就是兩個最重要的技術核心 🇺🇸CPU效能的擴充速度正在大幅降低,提出「運算通膨」概念
Thumbnail
NVIDIA 黃仁勳 - AI人工智慧時代如何帶動全球新產業革命(個人紀錄用) 🇺🇸Omniverse 就是未來集大成,而加速運算、人工智慧就是兩個最重要的技術核心 🇺🇸CPU效能的擴充速度正在大幅降低,提出「運算通膨」概念
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News