第二部：《深度學習》27/100 批次正規化（Batch Norm）⚖️ 穩定訓練與加速收斂！

Hansen W

發佈於AI科技機器學習修煉坊

更新於 2025/09/04發佈於 2025/09/04閱讀時間約 6 分鐘

AI時代系列(2) 機器學習三部曲: 🔹 第二部：《深度學習 —— 神經網路的革命》

27/100 第三週：📌 卷積神經網路 CNN

27.批次正規化（Batch Norm）⚖️ 穩定訓練與加速收斂！

________________________________________

✅ 核心概念

Batch Normalization（批次正規化）是一種深度學習訓練技術，透過標準化每一層輸入的分布，幫助模型更快收斂、更穩定訓練，並能一定程度上減緩過擬合。

📌 解決問題：

• 層層傳遞中，輸出分布會不斷變化，造成內部協變異變化（Internal Covariate Shift）

• 神經元激活值不穩，導致學習困難、收斂速度慢

________________________________________

🧠 如何做 Batch Normalization？

在每個 mini-batch 中：

1. 計算輸入特徵的平均與標準差

2. 標準化：

x^i= (xi−μbatch) / (σbatch+ϵ)

這條公式就是 Batch Normalization 的「標準化步驟」，讓每一層神經網路的輸入保持穩定分佈，是深度學習中提高效能的關鍵技巧。

3. 加入可學參數 γ 和 β，進行線性變換恢復表達能力：

y=γ⋅x^+βy

✅ 最終模型學到的其實是最「適合訓練」的標準化特徵！

________________________________________

🔄 加在哪裡？

通常加在：

• 捲積層或全連接層之後、激活函數（如 ReLU）之前

Conv2D → BatchNorm → ReLU → Pooling

________________________________________

⚙️ TensorFlow / Keras 實作：

python

from tensorflow.keras import layers

model = tf.keras.Sequential([

layers.Conv2D(32, (3, 3), padding='same'),

layers.BatchNormalization(),

layers.ReLU(),

layers.MaxPooling2D(pool_size=(2, 2))

])

這段程式碼構建了一個基本的卷積神經網路模組，用於圖像特徵提取。它依序包含四個層級：

Conv2D：建立一個 3×3 的捲積濾鏡，輸出 32 個特徵圖，padding='same' 表示輸出尺寸與輸入相同；

BatchNormalization：對每個 mini-batch 的輸出做標準化，穩定訓練過程、加速收斂；

ReLU：非線性激活函數，引入非線性，強化模型表達力；

MaxPooling2D：使用 2×2 的池化窗進行下採樣，減少空間維度與參數量，提取關鍵特徵。

這樣的結構常見於 CNN 的前幾層，能有效萃取圖像的局部特徵並壓縮資訊量，為後續分類或回歸任務做準備。

________________________________________

📈 批次正規化的好處

效果說明

✅ 穩定激活分布免梯度爆炸或消失，讓深層網路也能順利訓練

✅ 加快模型收斂速度可使用較高的學習率，減少訓練時間

✅ 提升泛化能力有類似正則化效果，能減少對 Dropout 的依賴

✅ 支援深層網路架構設計 ResNet、DenseNet、Transformer 等核心組件之一

________________________________________

⚠️ 設計注意事項：

• 在訓練與測試時會有不同行為（訓練使用 batch mean/std，測試使用整體估計值）

• 在小批次（batch size < 8）下效果可能不佳 → 可改用 Layer Norm 或 Group Norm

• Batch Norm 不一定與 Dropout 同時使用，可能會互相抵消

________________________________________

📊 與其他正規化方式比較：

Batch Normalization (Batch Norm) 運作方式：對 mini-batch 的特徵做標準化適用情況：CNN、MLP、一般深度學習模型 Layer Normalization (Layer Norm) 運作方式：對每個樣本的所有特徵做標準化適用情況：NLP、RNN、Transformer 等序列模型 Group Normalization (Group Norm) 運作方式：對特徵圖的通道群組做標準化適用情況：小 batch size 的 CNN，避免 Batch Norm 效果不佳

________________________________________

小結與啟示:

✅ Batch Normalization 是深度學習中的「訓練穩定劑」

✅ 幫助模型快速收斂、抑制梯度異常、提升泛化能力

✅ 幾乎所有現代深度網路結構（CNN、ResNet、Transformer）都會使用

Hansen W的沙龍AI科技機器學習修煉坊

留言

留言分享你的想法！

Hansen W的沙龍

8會員

137內容數

AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台，主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例，更強調理性思維與行動力的結合。無論你是AI初學者、創業者，還是追求人生升維的行者，都能在這裡找到前進的方向與志同道合的夥伴。

Hansen W的沙龍的其他內容

2025/09/04

第二部：《深度學習》26/100 CNN 模型架構範例 🏛 LeNet、AlexNet 到 ResNet！

LeNet-5（1998）首次將 CNN 成功應用於手寫數字辨識；AlexNet（2012）結合 ReLU、Dropout 與 GPU 加速；ResNet（2015）提出殘差連接，解決深層網路退化問題。三者分別象徵深度學習的啟蒙、突破與深化，成為電腦視覺發展的重要里程碑。

2025/09/04

第二部：《深度學習》26/100 CNN 模型架構範例 🏛 LeNet、AlexNet 到 ResNet！

2025/09/04

第二部：《深度學習》25/100 多通道輸入與多濾鏡輸出 🎨 處理彩色圖像必備技巧！

CNN 處理彩色圖像時，輸入為多通道（如 RGB 三通道），每個濾鏡同樣擁有三維結構，對各通道分別卷積後再相加形成輸出。若使用多個濾鏡，則能同時提取不同特徵，每個濾鏡輸出一張特徵圖，形成多通道輸出。這樣的設計能捕捉邊緣、紋理與形狀等多層次資訊，是 CNN 成功應用於影像辨識的關鍵技術。

2025/09/04

第二部：《深度學習》25/100 多通道輸入與多濾鏡輸出 🎨 處理彩色圖像必備技巧！

2025/09/04

第二部：《深度學習》24/100 卷積步長與填充策略 ⛓ 控制輸出尺寸的關鍵！

卷積層的步長與填充決定特徵圖大小與資訊保留。步長 stride=1 可完整保留細節，stride=2 則快速縮小尺寸；填充 same 會補零以保持輸入輸出一致，valid 不補零會讓特徵圖縮小。兩者的搭配能在保留重要特徵的同時控制計算量與模型規模，是設計 CNN 的核心技巧。

2025/09/04

第二部：《深度學習》24/100 卷積步長與填充策略 ⛓ 控制輸出尺寸的關鍵！

看更多

你可能也想看

方格子 vocus 官方沙龍

2025 下半場，蝦皮分潤計畫 x vocus 陪你回顧上半年的美好開箱！

2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》，我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物；這次活動不僅送出了許多獎勵，也反映了「內容有價」——創作不只是分享、紀錄，也能用各種不同形式變現、帶來實際收入。

#vocusforBusiness#蝦皮#蝦皮分潤

2025/08/25

方格子 vocus 官方沙龍

2025 下半場，蝦皮分潤計畫 x vocus 陪你回顧上半年的美好開箱！

#vocusforBusiness#蝦皮#蝦皮分潤

2025/08/25

方格子 vocus 官方沙龍

徵才：社群與內容行銷專員 (Community & Marketing Specialist)

嗨！歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台，並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈！「創作至上」是我們的核心價值，我們致力於透過平台功能與服務，賦予創作者更多的可能。 vocus 平台匯聚了

#vocus#徵才#社群行銷

2025/08/11

方格子 vocus 官方沙龍

徵才：社群與內容行銷專員 (Community & Marketing Specialist)

#vocus#徵才#社群行銷

2025/08/11

JayRay 的沙龍

【資料分析】python資料處理-特徵工程的使用時機與基礎操作語法彙整

特徵工程是機器學習中的核心技術，通過將原始數據轉換為有意義的特徵，以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程，以幫助讀者有效利用特徵工程來優化機器學習模型表現。

#數據#模型#異常

2024/08/14

JayRay 的沙龍

【資料分析】python資料處理-特徵工程的使用時機與基礎操作語法彙整

#數據#模型#異常

2024/08/14

Karen的沙龍

【邁向圖神經網絡GNN】Part5: 建構 GNN model 實作 Cora 資料集結點分類任務

本篇文章介紹如何使用PyTorch構建和訓練圖神經網絡（GNN），並使用Cora資料集進行節點分類任務。通過模型架構的逐步優化，包括引入批量標準化和獨立的消息傳遞層，調整Dropout和聚合函數，顯著提高了模型的分類準確率。實驗結果表明，經過優化的GNN模型在處理圖結構數據具有強大的性能和應用潛力。

#GNN#Graph#dropout

2024/07/28