第二部:《深度學習》27/100 批次正規化(Batch Norm)⚖️ 穩定訓練與加速收斂!

更新於 發佈於 閱讀時間約 6 分鐘

AI時代系列(2) 機器學習三部曲: 🔹 第二部:《深度學習 —— 神經網路的革命》

27/100 第三週:📌 卷積神經網路 CNN

27.批次正規化(Batch Norm)⚖️ 穩定訓練與加速收斂!

________________________________________

✅ 核心概念

Batch Normalization(批次正規化) 是一種深度學習訓練技術,透過標準化每一層輸入的分布,幫助模型更快收斂、更穩定訓練,並能一定程度上減緩過擬合。

📌 解決問題:

層層傳遞中,輸出分布會不斷變化,造成內部協變異變化(Internal Covariate Shift)

神經元激活值不穩,導致學習困難、收斂速度慢

________________________________________

🧠 如何做 Batch Normalization?

在每個 mini-batch 中:

1. 計算輸入特徵的平均與標準差

2. 標準化:

x^i= (xi−μbatch) / (σbatch+ϵ)

​這條公式就是 Batch Normalization 的「標準化步驟」,讓每一層神經網路的輸入保持穩定分佈,是深度學習中提高效能的關鍵技巧。

3. 加入可學參數 γ 和 β,進行線性變換恢復表達能力:

y=γ⋅x^+βy

✅ 最終模型學到的其實是最「適合訓練」的標準化特徵!

________________________________________

🔄 加在哪裡?

通常加在:

捲積層或全連接層之後、激活函數(如 ReLU)之前

Conv2D → BatchNorm → ReLU → Pooling

________________________________________

⚙️ TensorFlow / Keras 實作:

python

from tensorflow.keras import layers

model = tf.keras.Sequential([

layers.Conv2D(32, (3, 3), padding='same'),

layers.BatchNormalization(),

layers.ReLU(),

layers.MaxPooling2D(pool_size=(2, 2))

])

這段程式碼構建了一個基本的卷積神經網路模組,用於圖像特徵提取。它依序包含四個層級:

Conv2D:建立一個 3×3 的捲積濾鏡,輸出 32 個特徵圖,padding='same' 表示輸出尺寸與輸入相同;

BatchNormalization:對每個 mini-batch 的輸出做標準化,穩定訓練過程、加速收斂;

ReLU:非線性激活函數,引入非線性,強化模型表達力;

MaxPooling2D:使用 2×2 的池化窗進行下採樣,減少空間維度與參數量,提取關鍵特徵。

這樣的結構常見於 CNN 的前幾層,能有效萃取圖像的局部特徵並壓縮資訊量,為後續分類或回歸任務做準備。

________________________________________

📈 批次正規化的好處

效果 說明

✅ 穩定激活分布 免梯度爆炸或消失,讓深層網路也能順利訓練

✅ 加快模型收斂速度 可使用較高的學習率,減少訓練時間

✅ 提升泛化能力 有類似正則化效果,能減少對 Dropout 的依賴

✅ 支援深層網路架構設計 ResNet、DenseNet、Transformer 等核心組件之一

________________________________________

⚠️ 設計注意事項:

在訓練與測試時會有不同行為(訓練使用 batch mean/std,測試使用整體估計值)

在小批次(batch size < 8)下效果可能不佳 → 可改用 Layer Norm 或 Group Norm

Batch Norm 不一定與 Dropout 同時使用,可能會互相抵消

________________________________________

📊 與其他正規化方式比較:

Batch Normalization (Batch Norm) 運作方式:對 mini-batch 的特徵做標準化 適用情況:CNN、MLP、一般深度學習模型 Layer Normalization (Layer Norm) 運作方式:對 每個樣本的所有特徵 做標準化 適用情況:NLP、RNN、Transformer 等序列模型 Group Normalization (Group Norm) 運作方式:對特徵圖的 通道群組 做標準化 適用情況:小 batch size 的 CNN,避免 Batch Norm 效果不佳

________________________________________

小結與啟示:

✅ Batch Normalization 是深度學習中的「訓練穩定劑」

✅ 幫助模型快速收斂、抑制梯度異常、提升泛化能力

✅ 幾乎所有現代深度網路結構(CNN、ResNet、Transformer)都會使用


留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
8會員
137內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/09/04
LeNet-5(1998)首次將 CNN 成功應用於手寫數字辨識;AlexNet(2012)結合 ReLU、Dropout 與 GPU 加速;ResNet(2015)提出殘差連接,解決深層網路退化問題。三者分別象徵深度學習的啟蒙、突破與深化,成為電腦視覺發展的重要里程碑。
2025/09/04
LeNet-5(1998)首次將 CNN 成功應用於手寫數字辨識;AlexNet(2012)結合 ReLU、Dropout 與 GPU 加速;ResNet(2015)提出殘差連接,解決深層網路退化問題。三者分別象徵深度學習的啟蒙、突破與深化,成為電腦視覺發展的重要里程碑。
2025/09/04
CNN 處理彩色圖像時,輸入為多通道(如 RGB 三通道),每個濾鏡同樣擁有三維結構,對各通道分別卷積後再相加形成輸出。若使用多個濾鏡,則能同時提取不同特徵,每個濾鏡輸出一張特徵圖,形成多通道輸出。這樣的設計能捕捉邊緣、紋理與形狀等多層次資訊,是 CNN 成功應用於影像辨識的關鍵技術。
2025/09/04
CNN 處理彩色圖像時,輸入為多通道(如 RGB 三通道),每個濾鏡同樣擁有三維結構,對各通道分別卷積後再相加形成輸出。若使用多個濾鏡,則能同時提取不同特徵,每個濾鏡輸出一張特徵圖,形成多通道輸出。這樣的設計能捕捉邊緣、紋理與形狀等多層次資訊,是 CNN 成功應用於影像辨識的關鍵技術。
2025/09/04
卷積層的步長與填充決定特徵圖大小與資訊保留。步長 stride=1 可完整保留細節,stride=2 則快速縮小尺寸;填充 same 會補零以保持輸入輸出一致,valid 不補零會讓特徵圖縮小。兩者的搭配能在保留重要特徵的同時控制計算量與模型規模,是設計 CNN 的核心技巧。
2025/09/04
卷積層的步長與填充決定特徵圖大小與資訊保留。步長 stride=1 可完整保留細節,stride=2 則快速縮小尺寸;填充 same 會補零以保持輸入輸出一致,valid 不補零會讓特徵圖縮小。兩者的搭配能在保留重要特徵的同時控制計算量與模型規模,是設計 CNN 的核心技巧。
看更多
你可能也想看
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
本篇文章介紹如何使用PyTorch構建和訓練圖神經網絡(GNN),並使用Cora資料集進行節點分類任務。通過模型架構的逐步優化,包括引入批量標準化和獨立的消息傳遞層,調整Dropout和聚合函數,顯著提高了模型的分類準確率。實驗結果表明,經過優化的GNN模型在處理圖結構數據具有強大的性能和應用潛力。
Thumbnail
本篇文章介紹如何使用PyTorch構建和訓練圖神經網絡(GNN),並使用Cora資料集進行節點分類任務。通過模型架構的逐步優化,包括引入批量標準化和獨立的消息傳遞層,調整Dropout和聚合函數,顯著提高了模型的分類準確率。實驗結果表明,經過優化的GNN模型在處理圖結構數據具有強大的性能和應用潛力。
Thumbnail
本文參考TensorFlow官網Deep Convolutional Generative Adversarial Network的程式碼來加以實作說明。 示範如何使用深度卷積生成對抗網路(DCGAN) 生成手寫數位影像。
Thumbnail
本文參考TensorFlow官網Deep Convolutional Generative Adversarial Network的程式碼來加以實作說明。 示範如何使用深度卷積生成對抗網路(DCGAN) 生成手寫數位影像。
Thumbnail
本文將延續上一篇文章,經由訓練好的GAN模型中的生成器來生成圖片 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 [深度學習][Python]訓練CNN的GAN模型來生成圖片_訓練篇 相較之下CNN的GAN生成的效果比較好,但模型也相對比較複雜,訓練時間花的也比較
Thumbnail
本文將延續上一篇文章,經由訓練好的GAN模型中的生成器來生成圖片 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 [深度學習][Python]訓練CNN的GAN模型來生成圖片_訓練篇 相較之下CNN的GAN生成的效果比較好,但模型也相對比較複雜,訓練時間花的也比較
Thumbnail
延續上一篇訓練GAM模型,這次我們讓神經網路更多層更複雜一點,來看訓練生成的圖片是否效果會更好。 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 資料集分割處理的部分在延續上篇文章,從第五點開始後修改即可,前面都一樣 訓練過程,比較圖 是不是CNN的效果比MLP還要好,
Thumbnail
延續上一篇訓練GAM模型,這次我們讓神經網路更多層更複雜一點,來看訓練生成的圖片是否效果會更好。 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 資料集分割處理的部分在延續上篇文章,從第五點開始後修改即可,前面都一樣 訓練過程,比較圖 是不是CNN的效果比MLP還要好,
Thumbnail
本文主要介紹,如何利用GAN生成對抗網路來訓練生成圖片。 利用tensorflow,中的keras來建立生成器及鑑別器互相競爭訓練,最後利用訓練好的生成器來生成圖片。 GAN生成對抗網路的介紹 它由生成網路(Generator Network)和鑑別網路(Discriminator Netwo
Thumbnail
本文主要介紹,如何利用GAN生成對抗網路來訓練生成圖片。 利用tensorflow,中的keras來建立生成器及鑑別器互相競爭訓練,最後利用訓練好的生成器來生成圖片。 GAN生成對抗網路的介紹 它由生成網路(Generator Network)和鑑別網路(Discriminator Netwo
Thumbnail
透過這篇文章,我們將瞭解如何使用PyTorch實作圖神經網絡中的訊息傳遞機制,從定義消息傳遞的類別到實作消息傳遞過程。我們也探討了各種不同的消息傳遞機制,並通過對單次和多次傳遞過程的結果,可以看到節點特徵如何逐步傳遞與更新。
Thumbnail
透過這篇文章,我們將瞭解如何使用PyTorch實作圖神經網絡中的訊息傳遞機制,從定義消息傳遞的類別到實作消息傳遞過程。我們也探討了各種不同的消息傳遞機制,並通過對單次和多次傳遞過程的結果,可以看到節點特徵如何逐步傳遞與更新。
Thumbnail
GNN發展背景 傳統的深度學習模型如在計算機視覺(CV)和自然語言處理(NLP)領域中極為成功,主要是處理結構化數據如影像和文本。這些數據類型通常具有固定且規律的結構,例如影像是由有序的像素點組成。然而,在真實世界中,許多數據是非結構化的,如化合物結構(原子和分子)。這些數據雖然具有一定的規則性,
Thumbnail
GNN發展背景 傳統的深度學習模型如在計算機視覺(CV)和自然語言處理(NLP)領域中極為成功,主要是處理結構化數據如影像和文本。這些數據類型通常具有固定且規律的結構,例如影像是由有序的像素點組成。然而,在真實世界中,許多數據是非結構化的,如化合物結構(原子和分子)。這些數據雖然具有一定的規則性,
Thumbnail
本文主要介紹神經網路訓練辨識的過程,利用fashion_mnist及簡單的神經網路來進行分類。 使用只有兩層的神經網路來訓練辨識fashion_mnist資料。
Thumbnail
本文主要介紹神經網路訓練辨識的過程,利用fashion_mnist及簡單的神經網路來進行分類。 使用只有兩層的神經網路來訓練辨識fashion_mnist資料。
Thumbnail
streamlit與github連動程式庫,呈現即時預測手寫英文字母 整理了一下,先前學的機器學習利用Colab來訓練出能辨識手寫A~Z英文字母的模型,使用的模型是CNN(Convolutional Neural Network,CNN)模型 訓練好的模型,當然是要拿來應用,成果呈現
Thumbnail
streamlit與github連動程式庫,呈現即時預測手寫英文字母 整理了一下,先前學的機器學習利用Colab來訓練出能辨識手寫A~Z英文字母的模型,使用的模型是CNN(Convolutional Neural Network,CNN)模型 訓練好的模型,當然是要拿來應用,成果呈現
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News