梯度爆炸(Exploding Gradients)

iPAS AI應用規劃師學習筆記

發佈於自然語言處理與應用

更新於 2025/08/08發佈於 2025/05/24閱讀時間約 3 分鐘

「梯度爆炸 (Exploding Gradients)」就是另一個在訓練深度神經網路時可能遇到的問題，尤其是在遞迴神經網路 (RNNs) 中。

梯度爆炸是指在反向傳播 (Backpropagation) 演算法中，當梯度從輸出層向輸入層傳播時，可能會變得異常的大。

為什麼會發生梯度爆炸？

梯度爆炸通常發生在以下情況：

激活函數的導數過大： 如果使用的激活函數的導數值很大（大於 1），那麼在反向傳播的過程中，每一層的梯度都會被放大。當網路層數很深或者存在循環連接（如在 RNN 中）時，這種放大效應會被累加，導致梯度變得非常大。
權重過大： 如果網路的初始權重設定得過大，或者在訓練過程中權重持續增大，也會導致梯度在反向傳播時被放大。
RNN 中的循環連接： 在 RNN 中，由於每個時間步的梯度都會受到前一個時間步梯度的影響，如果梯度在某個時間步變得很大，這個大的梯度可能會在時間上不斷累積，導致梯度爆炸。

梯度爆炸會帶來什麼問題？

訓練不穩定： 極大的梯度會導致權重在一次更新中發生劇烈的變化，使得訓練過程變得非常不穩定，模型可能無法收斂。
權重溢出 (NaN)： 過大的梯度可能導致權重的值超出計算機所能表示的範圍，從而出現 NaN (Not a Number) 的情況，使得訓練完全失敗。
模型性能下降： 即使沒有導致權重溢出，不穩定的訓練也可能導致模型無法學習到有效的表示，從而影響最終的性能。

在 RNN 中梯度爆炸的特別影響：

在 RNN 中，梯度爆炸可能會導致模型在訓練過程中突然出現巨大的權重更新，進而破壞已經學到的信息。這會使得模型的訓練非常難以控制。

如何緩解梯度爆炸問題？

常見的緩解梯度爆炸的方法包括：

梯度裁剪 (Gradient Clipping): 這是最常用的方法之一。它設定一個梯度閾值，當梯度的範數（例如 L2 範數）超過這個閾值時，就將梯度縮放到閾值範圍內。這樣可以限制梯度的最大值，防止梯度過大。
使用 L1 或 L2 正規化 (Regularization): 正規化可以限制模型權重的大小，從而在一定程度上防止梯度爆炸。
調整學習率 (Learning Rate): 使用較小的學習率可以減緩權重更新的速度，從而降低梯度爆炸的風險。
權重初始化： 仔細選擇權重的初始化方法，避免初始權重過大。
使用不同的網路結構： 某些更穩定的網路結構，例如基於 Transformer 的模型，在處理長序列時對梯度爆炸和梯度消失問題的魯棒性更好。

總之，梯度爆炸是訓練深度神經網路，尤其是 RNN 時可能遇到的另一個挑戰。通過理解其原因和影響，並採用適當的緩解方法，我們可以更有效地訓練我們的模型。通常來說，梯度裁剪是應對梯度爆炸問題最直接且有效的方法。

含 AI 應用內容

郝信華 iPAS AI應用規劃師學習筆記自然語言處理與應用

留言

留言分享你的想法！

郝信華 iPAS AI應用規劃師學習筆記

17會員

448內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/05/24

梯度消失 (Vanishing Gradient)

在訓練深度神經網路（包括遞迴神經網路 RNNs 和更深層的前饋神經網路）時，梯度消失是一個常見的問題。它指的是在反向傳播 (Backpropagation) 演算法中，當梯度從輸出層向輸入層傳播時，可能會變得越來越小，甚至趨近於零。為什麼會發生梯度消失？這主要是因為以下兩個原因：激活函數

2025/05/24

梯度消失 (Vanishing Gradient)

2025/05/24

遞迴神經網路 (Recurrent Neural Network, RNN)

"遞迴神經網路 (Recurrent Neural Network, RNN)" 是一種特別設計來處理序列數據的神經網路。和傳統的前饋神經網路不同的是，RNN 具有「記憶」能力，能夠利用先前輸入的資訊來影響後續的輸出。你可以想像一下，當你閱讀一篇文章時，你不會孤立地理解每一個字，而是會根據前面讀

2025/05/24

遞迴神經網路 (Recurrent Neural Network, RNN)

2025/05/24

魯棒性 (lǔbàng xìng)

"魯棒性" (lǔbàng xìng) 指的是一個系統、模型或產品在面對各種異常、錯誤或不確定性的情況下，仍然能夠維持其功能和性能的能力。簡單來說，就是指它夠不夠 "堅強"、"穩定"，不容易被意外情況影響而崩潰或失效。你可以想像一下：一個堅固的杯子：即使不小心掉到地上，也不容易摔碎，這就是

2025/05/24

魯棒性 (lǔbàng xìng)

看更多

你可能也想看

方格子 vocus 官方沙龍

2025 下半場，蝦皮分潤計畫 x vocus 陪你回顧上半年的美好開箱！

2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》，我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物；這次活動不僅送出了許多獎勵，也反映了「內容有價」——創作不只是分享、紀錄，也能用各種不同形式變現、帶來實際收入。

#vocusforBusiness#蝦皮#蝦皮分潤

2025/08/25

方格子 vocus 官方沙龍

2025 下半場，蝦皮分潤計畫 x vocus 陪你回顧上半年的美好開箱！

#vocusforBusiness#蝦皮#蝦皮分潤

2025/08/25

方格子 vocus 官方沙龍

徵才：社群與內容行銷專員 (Community & Marketing Specialist)

嗨！歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台，並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈！「創作至上」是我們的核心價值，我們致力於透過平台功能與服務，賦予創作者更多的可能。 vocus 平台匯聚了

#vocus#徵才#社群行銷

2025/08/11

方格子 vocus 官方沙龍

徵才：社群與內容行銷專員 (Community & Marketing Specialist)

#vocus#徵才#社群行銷

2025/08/11

Nomoremargin ｜外匯倫敦盤的短線交易者

最複雜的概念，Fractal - 碎形、分形

因為 Fractal 好像沒標準的翻譯，所以Fractal 以下內文都統稱碎形碎形的前提 Fractal 是我認為在交易中最複雜的概念。它涵括了時間範圍、參與者的改變、新聞、消息...等變因，才造就了不同時框的 K 棒變化。交易者所習慣觀察的時框大小，導致碎形能提供的資訊有所落差。例

#外匯#期貨#當沖

2024/08/11

Nomoremargin ｜外匯倫敦盤的短線交易者

最複雜的概念，Fractal - 碎形、分形

#外匯#期貨#當沖

2024/08/11

ysf的沙龍

The Nature of Code閱讀心得與Python實作：1.2 Vectors in...

這一節談的是向量的定義，以及如何運用向量來建立模擬物體運動時，關於位置和速度間的關係式。

#python#Python#PYTHON

2024/06/24

ysf的沙龍

The Nature of Code閱讀心得與Python實作：1.2 Vectors in...

這一節談的是向量的定義，以及如何運用向量來建立模擬物體運動時，關於位置和速度間的關係式。

#python#Python#PYTHON

2024/06/24

螃蟹_crab的沙龍

[Python]導數與偏導數(學習心得)

直觀理解導數：考慮的是單一變數的函數，描述的是函數在某點的斜率或變化率。偏導數：考慮的是多變數函數，描述的是函數在某個變數變化時的變化率，其他變數保持不變。 (針對各維度的調整或者稱變化你要調多少) 應用導數：在物理學中應用廣泛，例如描述速度和加速度。偏導數：在多變量分析、優

2024/06/01

2024/06/01

大語言模型（如GPT-3和GPT-4）的出現改變了我們與機器互動的方式。這些模型能夠理解和生成自然語言，實現許多以前無法想像的應用。然而，你可能會好奇，這些模型究竟是如何理解語言的？這裡，我們來探討一個關鍵的概念：「一切語義都是關係」。

2024/05/20

2024/05/20

合縱連橫: 從圖論的應用題理解BFS背後的本質

這篇文章，會帶著大家複習以前學過的BFS框架，並且以圖論的應用題與概念為核心，貫穿一些相關聯的題目，透過框架複現來幫助讀者理解這個演算法框架。 BFS 框架 + 演算法虛擬碼 # Queue 通常初始化成根結點，作為起點 BFS_queue = deque([root]) # 先

#python#leetcode#algorithm

2024/04/02

小松鼠的演算法樂園

合縱連橫: 從圖論的應用題理解BFS背後的本質

#python#leetcode#algorithm

2024/04/02

小松鼠的演算法樂園

合縱連橫: 從區間和應用理解前綴和的本質

這篇文章，會帶著大家複習以前學過的前綴和框架，並且以區間和的概念與應用為核心，貫穿一些相關聯的題目，透過框架複現來幫助讀者理解這個演算法框架。前綴和 prefix sum框架與區間和計算的關係式接下來，我們會用這個上面這種框架，貫穿一些同類型，有關聯的題目 (請讀者、或觀眾

#python#leetcode#algorithm

2024/03/27

小松鼠的演算法樂園

合縱連橫: 從區間和應用理解前綴和的本質

#python#leetcode#algorithm

2024/03/27

教育心理博士的筆記本

隨機截距交叉延宕模式:加入跨時間不變的預測或結果變項(4)

之前已經說過限制模型，接下來進入下一部份根據Mulder and Hamaker (2021)建議，在 RI-CLPM 中，有許多擴展模型，今天要介紹的是 Extension 1。Extension 1就是加入跨時間不變的預測或結果變項，本文將介紹此模型構造和語法。

#Mplus#RICLPM#MOD

2024/02/27

教育心理博士的筆記本

隨機截距交叉延宕模式:加入跨時間不變的預測或結果變項(4)

#Mplus#RICLPM#MOD

2024/02/27

馬達技術傳承計畫

馬達設計：漆包線 ( IV )

在之前的文章中已經有提到細線併繞將會導致槽滿率的下降，本文就來深究其原因。追根究柢就是因為多線併繞時，往往會於繞線的過程中，自然而然的產生類絞線排列，反倒使原本理想中的細線排列分佈，絞成了一個大圓線的配置，導致更多的間隙使得馬達槽滿率下降。在線徑與並聯股數換算中有一個計算例，是4股的0.3m

2024/02/18

2024/02/18

心情繪本｜ChatGPT ｜DALL.E |[力量的序曲：冪次定律與馬太效應]

冪次定律呈現一條曲線，從左下方緩慢上升，然後迅速上升，強調了少數事件的極端值。這些極端值代表著相對較大的事件，其影響力遠遠超過了大多數事件。馬太效應由一個明顯的源頭開始，不斷分支出更多的線條，形成一個庞大的樹狀結構。這些分支中的一些可能變得更大，代表著成功的累積效應，符合馬太效應

#powerlaw#冪次#冪律

2024/01/27

D&Y熊繪生的沙龍

心情繪本｜ChatGPT ｜DALL.E |[力量的序曲：冪次定律與馬太效應]

#powerlaw#冪次#冪律

2024/01/27

Rene Wang的沙龍

[探索] 門外漢的機械學習導覽

感知器 (perceptron) 利用逐一探訪訓練資料，以更多的訓練例子被正確的分類為目標，來更新任意初始的權重。然而該方法難以延伸到非線性的分類平面，所以以梯度為主的最佳化演算法取而代之，並發展出更多的應用。在本篇中，除了介紹梯度下降法外，亦會討論如何利用學習曲線圖診斷一個機械模型，並對症下藥。

2019/07/25

2019/07/25

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News