批次標準化 (BN - Batch Normalization)

更新於 2025/05/26發佈於 2025/05/26閱讀時間約 4 分鐘

「批次標準化 (BN - Batch Normalization)」是一種在深度學習中廣泛使用的技術，特別是在訓練非常深的網路（例如 CNN）時，用於提高模型的性能和穩定性。它通過標準化（即將數據調整為具有零均值和單位方差）網路中每一層的輸入來實現這一點。

你可以將批次標準化想像成在每一層神經元接收輸入之前，都對這些輸入數據進行一次「預處理」，使得它們的分布更加一致。

批次標準化的主要目標和優點：

提高訓練速度： 批次標準化可以減少內部協變量偏移 (Internal Covariate Shift) 的問題。內部協變量偏移指的是在訓練過程中，由於前一層的參數不斷更新，導致後續層接收到的輸入數據的分布不斷變化。這會使得後續層需要不斷地適應新的輸入分布，從而減慢了學習速度。批次標準化通過將每一層的輸入數據標準化到相似的範圍內，減輕了這種偏移，使得網路可以更快地學習。
允許使用更高的學習率： 標準化後的數據具有更穩定的分布，這使得我們可以更大膽地設置學習率，而不用擔心訓練過程發散。更高的學習率通常可以加快訓練速度。
減少對權重初始化的依賴： 好的權重初始化對於訓練深度網路非常重要。批次標準化可以在一定程度上減輕這種依賴，使得模型對於不同的權重初始化更加魯棒。
在一定程度上起到正則化的作用： 批次標準化在每個批次中計算均值和方差時引入了隨機性（因為每個批次的數據是不同的），這在一定程度上可以起到類似於 Dropout 的正則化效果，幫助模型提高泛化能力，減少過擬合。

批次標準化的工作原理：

批次標準化通常在每個隱藏層的激活函數之前進行。對於給定的層，批次標準化會對每個 mini-batch 中的激活值進行以下操作：

計算批次的均值 (Mean of the Batch): 對於該層的每個神經元（或每個特徵通道，在 CNN 中），計算當前 mini-batch 中所有樣本的激活值的均值。
計算批次的方差 (Variance of the Batch): 同樣地，計算當前 mini-batch 中所有樣本的激活值的方差。
標準化 (Normalization): 使用計算出的均值和方差對該層的每個激活值進行標準化，使其接近零均值和單位方差。
縮放和平移 (Scaling and Shifting): 標準化後的激活值可能會限制模型的表達能力。因此，批次標準化還引入了兩個可學習的參數：(gamma)（縮放因子）和 (beta)（平移因子）。對於每個神經元（或每個特徵通道），模型會學習一個最佳的 (gamma) 和 (beta)，然後對標準化後的激活值進行縮放和平移，這樣，模型就可以根據需要學習到更適合任務的激活值分布。

批次標準化在 CNN 中的應用：

在卷積神經網路中，批次標準化通常在每個卷積層之後、激活函數之前進行。對於每個卷積核生成的特徵圖，批次標準化會對該特徵圖的每個通道（feature channel）進行標準化。

總結來說，批次標準化是一種非常有效的技術，可以加速深度神經網路的訓練，提高模型的穩定性和泛化能力。它通過在每個 mini-batch 中標準化層的激活值來減輕內部協變量偏移，並允許使用更高的學習率。

含 AI 應用內容

郝信華 iPAS AI應用規劃師學習筆記電腦視覺技術與應用卷積神經網路核心原理

留言

留言分享你的想法！

郝信華 iPAS AI應用規劃師學習筆記

6會員

255內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/05/26

ReLU (Rectified Linear Unit)

「ReLU (Rectified Linear Unit)」是一種非常常見且廣泛應用於人工神經網路（包括卷積神經網路）中的激活函數。你可以將激活函數想像成神經元中的一個開關，它決定了神經元的輸出應該是什麼。ReLU 函數尤其簡單且有效。 ReLU 的數學定義： ReLU 函數的數學表達式非常

2025/05/26

ReLU (Rectified Linear Unit)

2025/05/26

全連接層 (Fully Connected Layer)

「全連接層 (Fully Connected Layer)」是傳統神經網路和卷積神經網路 (CNN) 中常見的一種層類型。在全連接層中，每個神經元都與前一層的所有神經元相連接。你可以將全連接層想像成一個將前面提取到的所有特徵信息「匯總」起來，並進行最終的分類或預測的階段。全連接層的工作原理：

2025/05/26

全連接層 (Fully Connected Layer)

2025/05/26

池化層 (Pooling Layer)

「池化層 (Pooling Layer)」是卷積神經網路 (CNN) 中一個重要的組成部分，通常會放在一個或多個卷積層之後。池化層的主要作用是減小特徵圖的空間尺寸（寬度和高度），同時保留重要的特徵信息。你可以將池化層想像成對卷積層輸出的特徵圖進行「濃縮」或「概括」，從而降低數據的複雜性。池化

2025/05/26

池化層 (Pooling Layer)

看更多

你可能也想看

小愛和彤彤的小日常的沙龍

告別瞇眼寫功課！喜光TIONE⁺光健康智慧檯燈守護孩子視力

孩子寫功課時瞇眼？小心近視！這款喜光全光譜TIONE⁺光健康智慧檯燈，獲眼科院長推薦，網路好評不斷！全光譜LED、180cm大照明範圍、5段亮度及色溫調整、350度萬向旋轉，讓孩子學習更舒適、保護眼睛！

#方格新手#保護眼睛#閱讀

2025/06/21

小愛和彤彤的小日常的沙龍

告別瞇眼寫功課！喜光TIONE⁺光健康智慧檯燈守護孩子視力

#方格新手#保護眼睛#閱讀

2025/06/21

方格子 vocus 官方沙龍

徵才：創作者營運專員/經理（Operations Specialist）｜Creator Partnership 部門

創作者營運專員/經理（Operations Specialist/Manager）將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力，找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。

#vocus#方格子#求職

2025/06/23

方格子 vocus 官方沙龍

徵才：創作者營運專員/經理（Operations Specialist）｜Creator Partnership 部門

#vocus#方格子#求職

2025/06/23

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 129 中說，Bidirectional Encoder Representations from Transformers (BER

#AI#ai#PromptEngineering

2024/08/13

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

#AI#ai#PromptEngineering

2024/08/13

曼徹的矽谷旅記 Mencher’s Travelogue

ML Infra 一大戰場 - 分散式訓練

本系列將討論 LLM 時代中，分散 ML workload 的各種方法。作為系列的第一篇，我們將提及 High-level 的概論，譬如分散式訓練的各種切法、Model Parallelism 的相依問題，以及改善 Network Topology 等課題。

#討論#ML#LLM

2024/08/05

曼徹的矽谷旅記 Mencher’s Travelogue

ML Infra 一大戰場 - 分散式訓練

#討論#ML#LLM

2024/08/05

Karen的沙龍

【邁向圖神經網絡GNN】Part5: 建構 GNN model 實作 Cora 資料集結點分類任務

本篇文章介紹如何使用PyTorch構建和訓練圖神經網絡（GNN），並使用Cora資料集進行節點分類任務。通過模型架構的逐步優化，包括引入批量標準化和獨立的消息傳遞層，調整Dropout和聚合函數，顯著提高了模型的分類準確率。實驗結果表明，經過優化的GNN模型在處理圖結構數據具有強大的性能和應用潛力。

#GNN#Graph#dropout

2024/07/28