梯度消失 (Vanishing Gradient)

更新於 發佈於 閱讀時間約 3 分鐘

在訓練深度神經網路(包括遞迴神經網路 RNNs 和更深層的前饋神經網路)時,梯度消失是一個常見的問題。它指的是在反向傳播 (Backpropagation) 演算法中,當梯度從輸出層向輸入層傳播時,可能會變得越來越小,甚至趨近於零。

為什麼會發生梯度消失?

這主要是因為以下兩個原因:

  1. 激活函數的導數: 許多常用的激活函數,例如 Sigmoid 和 Tanh,它們的導數值域在 (0, 1] 或 (-1, 1] 之間。在反向傳播過程中,每一層的梯度都需要乘以激活函數的導數。當網路層數很深時,許多小於 1 的數值連乘,結果會變得非常小,趨近於零。
  2. 網路的深度: 網路越深,梯度需要經過的層數就越多,每次乘以一個小於 1 的導數,都會進一步縮小梯度。

梯度消失會帶來什麼問題?

  • 學習緩慢甚至停止: 當梯度變得非常小時,底層(靠近輸入層)的權重和偏差幾乎不會得到更新,導致這些層無法有效地學習到有用的特徵。
  • 網路訓練停滯不前: 即使訓練持續進行,模型的性能也可能不再提升,因為梯度太小,無法引導模型向更好的方向優化。
  • 難以訓練深層網路: 梯度消失是訓練非常深的網路的一個主要障礙。

在 RNN 中梯度消失的特別影響:

在 RNN 中,梯度消失的問題尤其會影響模型學習長期依賴關係的能力。當梯度在時間上反向傳播時,如果序列很長,早期的時間步的梯度就會變得非常小,導致模型難以學習到很久以前的輸入對當前輸出的影響。這限制了標準 RNN 在處理長文本、長語音等序列數據上的能力。

如何緩解梯度消失問題?

研究人員已經提出了許多方法來緩解梯度消失的問題,包括:

  • 使用不同的激活函數: 例如 ReLU (Rectified Linear Unit) 及其變體 (Leaky ReLU, Parametric ReLU 等)。ReLU 在正區間的導數為 1,可以減少梯度消失的影響。
  • 使用更複雜的網路結構: 例如長短期記憶網路 (LSTM) 和門控循環單元 (GRU),它們引入了門機制來更好地控制信息的流動和梯度的傳播。
  • 殘差連接 (Residual Connections): 在深層網路中加入跳躍連接,允許梯度直接跳過某些層,減少梯度消失的風險。這是訓練非常深的 CNN 的常用技巧。
  • 梯度裁剪 (Gradient Clipping): 當梯度過大時,將其縮放到一個合理的範圍內,可以防止梯度爆炸,有時也有助於緩解梯度消失。
  • 更好的權重初始化方法: 合理的權重初始化可以幫助梯度在網路中更好地傳播。

總之,梯度消失是訓練深度神經網路時需要注意的一個重要問題。理解其原因和影響,並採取相應的措施來緩解它,是成功訓練深層模型的關鍵。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
4會員
222內容數
現職 : 富邦建設資訊副理 經濟部 iPAS AI應用規劃師
2025/05/24
"遞迴神經網路 (Recurrent Neural Network, RNN)" 是一種特別設計來處理序列數據的神經網路。和傳統的前饋神經網路不同的是,RNN 具有「記憶」能力,能夠利用先前輸入的資訊來影響後續的輸出。 你可以想像一下,當你閱讀一篇文章時,你不會孤立地理解每一個字,而是會根據前面讀
2025/05/24
"遞迴神經網路 (Recurrent Neural Network, RNN)" 是一種特別設計來處理序列數據的神經網路。和傳統的前饋神經網路不同的是,RNN 具有「記憶」能力,能夠利用先前輸入的資訊來影響後續的輸出。 你可以想像一下,當你閱讀一篇文章時,你不會孤立地理解每一個字,而是會根據前面讀
2025/05/24
"魯棒性" (lǔbàng xìng) 指的是一個系統、模型或產品在面對各種異常、錯誤或不確定性的情況下,仍然能夠維持其功能和性能的能力。簡單來說,就是指它夠不夠 "堅強"、"穩定",不容易被意外情況影響而崩潰或失效。 你可以想像一下: 一個堅固的杯子: 即使不小心掉到地上,也不容易摔碎,這就是
2025/05/24
"魯棒性" (lǔbàng xìng) 指的是一個系統、模型或產品在面對各種異常、錯誤或不確定性的情況下,仍然能夠維持其功能和性能的能力。簡單來說,就是指它夠不夠 "堅強"、"穩定",不容易被意外情況影響而崩潰或失效。 你可以想像一下: 一個堅固的杯子: 即使不小心掉到地上,也不容易摔碎,這就是
2025/05/24
"泛化能力" (generalization ability) 指的是一個模型或系統在未曾見過的資料上表現良好的能力。簡單來說,就是模型能夠從已知的訓練資料中學習到的規律,並將這些規律應用到新的、未知的資料上。 你可以將它想像成一個學生學習解數學題的過程。如果一個學生只是死記硬背課本上的例題,那麼
2025/05/24
"泛化能力" (generalization ability) 指的是一個模型或系統在未曾見過的資料上表現良好的能力。簡單來說,就是模型能夠從已知的訓練資料中學習到的規律,並將這些規律應用到新的、未知的資料上。 你可以將它想像成一個學生學習解數學題的過程。如果一個學生只是死記硬背課本上的例題,那麼
看更多
你可能也想看
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
透過這篇文章,我們將瞭解如何使用PyTorch實作圖神經網絡中的訊息傳遞機制,從定義消息傳遞的類別到實作消息傳遞過程。我們也探討了各種不同的消息傳遞機制,並通過對單次和多次傳遞過程的結果,可以看到節點特徵如何逐步傳遞與更新。
Thumbnail
透過這篇文章,我們將瞭解如何使用PyTorch實作圖神經網絡中的訊息傳遞機制,從定義消息傳遞的類別到實作消息傳遞過程。我們也探討了各種不同的消息傳遞機制,並通過對單次和多次傳遞過程的結果,可以看到節點特徵如何逐步傳遞與更新。
Thumbnail
本篇文章專注於消息傳遞(message passing)在圖神經網絡(GNN)中的應用,並以簡單的例子解釋了消息傳遞的過程和機制。
Thumbnail
本篇文章專注於消息傳遞(message passing)在圖神經網絡(GNN)中的應用,並以簡單的例子解釋了消息傳遞的過程和機制。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 新模型和 Human Baselines 排名將不斷變化,Human Baselines 的位置自從基礎模型出現以來,它就不再具有多大意義了,這些排名只是表明經典 NL
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 新模型和 Human Baselines 排名將不斷變化,Human Baselines 的位置自從基礎模型出現以來,它就不再具有多大意義了,這些排名只是表明經典 NL
Thumbnail
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》時,文中介紹了殘差網路,並推薦了兩篇論文;因為在看了書後,對殘差網路的概念還是不很清楚,於是決定用ChatGPT翻譯這兩篇論文來增強理解,以下正文是第一篇論文:Deep Residual Learning for Image Re
Thumbnail
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》時,文中介紹了殘差網路,並推薦了兩篇論文;因為在看了書後,對殘差網路的概念還是不很清楚,於是決定用ChatGPT翻譯這兩篇論文來增強理解,以下正文是第一篇論文:Deep Residual Learning for Image Re
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 仔細看 AI說書 - 從0開始 - 66 中,Decoder 的 Multi-Head Attention 框框,會發現有一條線空接,其實它是有意義的,之所以空接,是因
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 仔細看 AI說書 - 從0開始 - 66 中,Decoder 的 Multi-Head Attention 框框,會發現有一條線空接,其實它是有意義的,之所以空接,是因
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 接著來談 Transformer 架構中的 Feedforward Network (FFN): 其為全連接的神經網路架構 回顧 AI說書 - 從0開始 - 64
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 接著來談 Transformer 架構中的 Feedforward Network (FFN): 其為全連接的神經網路架構 回顧 AI說書 - 從0開始 - 64
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在AI說書 - 從0開始 - 41中,我們提及 Transformer 的 Encoder 架構如下圖所示,同時我們羅列幾個要點於圖示右邊: 原始 Transform
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在AI說書 - 從0開始 - 41中,我們提及 Transformer 的 Encoder 架構如下圖所示,同時我們羅列幾個要點於圖示右邊: 原始 Transform
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 首先先展示 Transformer 的架構圖: 可以看到架構中不再出現 RNN 、 LSTM 、 CNN 等物件,因為 Recurrence 已被摒棄。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 首先先展示 Transformer 的架構圖: 可以看到架構中不再出現 RNN 、 LSTM 、 CNN 等物件,因為 Recurrence 已被摒棄。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News