LeNet-5 是一種開創性的卷積神經網路 (Convolutional Neural Network, CNN) 架構,由 Yann LeCun 等人在 1990 年代開發出來,主要用於手寫數字辨識。它在當時取得了巨大的成功,並被廣泛認為是現代 CNN 的奠基之作,對後來的深度學習和電腦視覺領域產生了深遠的影響。
以下是 LeNet-5 的一些關鍵特點和架構:
- 七層網路 (不包含輸入層):
- 卷積層 (Convolutional Layer): 使用可學習的卷積核對輸入圖像進行掃描,提取圖像的局部特徵。LeNet-5 中使用了具有可學習權重的卷積核。
- 池化層 (Pooling Layer): 通常位於卷積層之後,用於降低特徵圖的空間尺寸,減少計算量,並提高模型對圖像微小變形和位置變化的魯棒性。LeNet-5 使用的是平均池化 (Average Pooling)。
- 卷積層 (Convolutional Layer): 再次進行特徵提取。
- 池化層 (Pooling Layer): 再次降低特徵圖的尺寸。
- 全連接層 (Fully Connected Layer): 將前面的特徵圖展平成一維向量,並連接到全連接的神經元。
- 全連接層 (Fully Connected Layer): 進一步處理特徵。
- 輸出層 (Output Layer): 使用 Softmax 激活函數輸出每個數字類別 (0-9) 的機率。
- 特定的網路結構: LeNet-5 採用了特定的卷積核大小、步長、池化方式以及神經元的連接方式。例如,它使用了 5x5 的卷積核。
- 激活函數: LeNet-5 最初使用的是 Sigmoid 或 Tanh 等激活函數。
- 訓練數據集: LeNet-5 最初在 MNIST 手寫數字數據集上進行訓練和評估,並取得了非常好的效果。
- 首次成功應用 CNN 於實際問題: 它證明了 CNN 在處理圖像數據方面的有效性,特別是在具有空間結構的數據上。
- 奠定了現代 CNN 的基礎: 許多現代 CNN 的基本概念,如卷積層、池化層、全連接層以及反向傳播算法的應用,都在 LeNet-5 中得到了體現。
- 啟發了後續的研究: LeNet-5 的成功激發了後續對更深、更複雜的 CNN 架構的研究,例如 AlexNet、VGG、ResNet 等。
總而言之,LeNet-5 是電腦視覺和深度學習發展史上一個里程碑式的模型,它的成功為後來的圖像識別和分析技術奠定了堅實的基礎。