第二部：《深度學習》33/100 梯度消失與長短期記憶 LSTM 💡 解決 RNN 的遺忘問題！

Hansen W

發佈於AI科技機器學習修煉坊

2025/09/09 更新2025/09/09 發佈閱讀 8 分鐘

AI時代系列(2) 機器學習三部曲: 🔹 第二部：《深度學習 —— 神經網路的革命》

33/100 第四週：📌 循環神經網路 RNN

33.梯度消失與長短期記憶 LSTM 💡 解決 RNN 的遺忘問題！

________________________________________

✅ 問題導入：RNN 忘太快了！

RNN 雖然能記住短時間內的資訊，但當序列太長時，就會出現：

• 梯度消失（Vanishing Gradient）

• 梯度爆炸（Exploding Gradient）

📌 結果就是：前面的資訊還沒處理完，就在學習過程中「淡忘」了！

________________________________________

📉 為什麼會梯度消失？

在反向傳播（BPTT）時，參數會不斷乘上導數（<1），

當序列長度一拉長，這些值就會變得極小：

δt=δt+1⋅W⋅f′(ht)

這條公式描述了 RNN 在反向傳播時的梯度遞迴關係，是 BPTT（時間反向傳播）中的關鍵步驟。它表示當前時間步的誤差梯度 δt來自下一步的誤差 δt+1，經由遞迴權重 W 傳回，並乘上激活函數對隱藏狀態的導數 f′(ht)。這樣的誤差鏈條讓模型能夠逐步修正序列中的每個時間步，但也因此容易出現梯度消失或爆炸的問題，特別在處理長序列時，需要更穩定的單元如 LSTM 或 GRU 來改善。

❌ 結果：早期訊息的誤差幾乎傳不回去 → 模型「記不住久遠的記憶」。

________________________________________

💡 解法登場：LSTM！

LSTM（Long Short-Term Memory）是一種改良的 RNN 結構，

由 Hochreiter & Schmidhuber 於 1997 年提出，能記得長期資訊，又不遺忘短期關鍵！

________________________________________

🧠 LSTM 與 RNN 的最大不同：

RNN：只有一條「隱藏狀態 h」

LSTM：多了一條「記憶單元 c（Cell State）」，可以「帶著記憶走很久」

________________________________________

🧩 LSTM 結構簡圖（每個時間步 t）：

┌────────────┐

xt ──►──►│ Forget │──────────┐

└────────────┘ ▼

┌────────────┐ ┌────────┐

xt ──►──►│ Input Gate │─►───│ Cell c │─────►─── ct

└────────────┘ └────────┘

┌────────────┐ │

xt ──►──►│ Output Gate │─────────┘

└────────────┘ → ht

這張圖示描繪的是 LSTM（長短期記憶網路）單元的結構流程圖，顯示 LSTM 如何透過三個核心「閘門」機制來控制資訊的流動與記憶的更新：

• Forget Gate（遺忘閘門）：決定要遺忘多少先前單元狀態（ct−1）的資訊；

• Input Gate（輸入閘門）：決定要將多少新輸入資訊（xt）寫入記憶單元 ct；

• Cell（記憶單元）：保存並更新長期記憶狀態 ct ；

• Output Gate（輸出閘門）：控制記憶的哪一部分要輸出作為當前時間步的隱藏狀態 ht。

透過這種設計，LSTM 能夠保留重要資訊、忽略不相關內容，並有效解決 RNN 在處理長序列時的梯度消失問題，廣泛應用於語音辨識、機器翻譯與時間序列預測等任務。

✅ 加法與乘法設計可避免梯度消失！

________________________________________

🏁 LSTM 的學習邏輯（每步摘要）：

1. 忘記不重要的記憶（forget gate）

2. 選擇性接收新資訊（input gate）

3. 更新記憶（cell state）

4. 根據目前記憶輸出（output gate）

________________________________________

⚙️ TensorFlow / Keras 建立 LSTM 模型：

python

from tensorflow.keras.models import Sequential

from tensorflow.keras.layers import LSTM, Dense

model = Sequential([

LSTM(128, input_shape=(100, 64)), # 100 時間步、64 特徵

Dense(1, activation='sigmoid')

])

這段程式碼建立了一個以 LSTM（長短期記憶網路）為核心的序列模型，用於處理具有時間依賴性的資料。輸入資料的形狀為 (100, 64)，代表每筆樣本是一個長度為 100 的序列，每個時間步包含 64 維特徵；LSTM(128) 表示使用 128 個記憶單元來學習序列中的時間模式與長期依賴；接著透過一個 Dense 全連接層並使用 sigmoid 激活函數輸出一個介於 0 和 1 的機率值，適合應用於二分類任務，如情感分析、異常偵測或趨勢預測等。

📌 可用於情感分析、股價預測、時間序列分類等。

________________________________________

🔄 LSTM vs RNN 比較表：

· 記憶範圍

· RNN：適合短期記憶

· LSTM：可兼顧長期與短期記憶

· 梯度消失問題

· RNN：容易發生梯度消失或爆炸

· LSTM：透過門控與記憶單元機制，幾乎解決此問題

· 結構複雜度

· RNN：結構簡單

· LSTM：包含輸入門、遺忘門、輸出門及記憶單元，結構較複雜

· 適用任務

· RNN：短文本、序列標記（如 POS tagging、簡單時間序列）

· LSTM：長文本、機器翻譯、語音辨識、時序預測等需長期依賴的任務

________________________________________

🎯 小結與啟示：

✅ RNN 容易忘記長期依賴 → 需要 LSTM 來強化記憶能力

✅ LSTM 透過三道門設計，有效控制哪些該記、該忘、該輸出

✅ 幾乎所有 NLP、語音、時序模型都用 LSTM 或其變種（GRU、BiLSTM）

Hansen W的沙龍AI科技機器學習修煉坊

留言

留言分享你的想法！

Hansen W的沙龍

16會員

459內容數

AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台，主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例，更強調理性思維與行動力的結合。無論你是AI初學者、創業者，還是追求人生升維的行者，都能在這裡找到前進的方向與志同道合的夥伴。

Hansen W的沙龍的其他內容

2025/09/04

第二部：《深度學習》32/100 隱藏狀態與時間步演算 🧭 記住過去的記憶！

RNN（循環神經網路）是一種專門用來處理序列資料的神經網路架構，它最大的特色是能夠「記住過去的資訊」，將前一時間步的輸出作為當前輸入的一部分，形成一種時間上的記憶鏈。這使得 RNN 特別適合處理像語音、文字、時間序列數據等有順序關係的任務。

2025/09/04

第二部：《深度學習》32/100 隱藏狀態與時間步演算 🧭 記住過去的記憶！

2025/09/04

第二部：《深度學習》31/100 RNN 基本結構與用途 ⏳ 理解時間與順序的神經網路！

RNN（循環神經網路）具備記憶先前輸入的能力，能保留上下文資訊，特別適合處理語音、文字、時間序列等具備時間關聯性的資料。相較之下，MLP 與 CNN 無法記憶過去輸入，僅適合處理圖像、表格等固定特徵的任務。因此，RNN 是理解序列建模與發展 Transformer 等進階模型的重要基礎。

2025/09/04

第二部：《深度學習》31/100 RNN 基本結構與用途 ⏳ 理解時間與順序的神經網路！

2025/09/04

第二部：《深度學習》30/100 小結與測驗：貓狗分類器 🐱🐶 自己訓練會辨別的眼睛！

卷積神經網路（CNN）是一種模仿人類視覺皮質運作方式的深度學習模型，特別擅長處理圖像資料。透過卷積層提取局部特徵、池化層進行降維壓縮，再經由全連接層進行分類，CNN 可有效辨識圖像中的邊緣、形狀與紋理，廣泛應用於影像辨識、醫療影像分析、無人駕駛等領域。

2025/09/04

第二部：《深度學習》30/100 小結與測驗：貓狗分類器 🐱🐶 自己訓練會辨別的眼睛！

看更多

你可能也想看

方格子 vocus 官方沙龍

線上街訪直擊！雙 11 購物車大公開！

雙11於許多人而言，不只是單純的折扣狂歡，更是行事曆裡預定的，對美好生活的憧憬。錢錢沒有不見，它變成了快樂，跟讓臥房、辦公桌、每天早晨的咖啡香升級的樣子！這次格編突擊辦公室，也邀請 vocus「野格團」創作者分享掀開蝦皮購物車的簾幕，「加入購物車」的瞬間，藏著哪些靈感，或是對美好生活的想像？

#vocusforBusiness#雙11#蝦皮分潤計畫

2025/10/28

方格子 vocus 官方沙龍

線上街訪直擊！雙 11 購物車大公開！

#vocusforBusiness#雙11#蝦皮分潤計畫

2025/10/28

Learn AI 不 BI

AI說書 - 從0開始 - 92

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 87 說：Wang 等人 2019 年的論文，提供了合理答案的選擇 (Choice of Plausible Answers, COP

#AI#ai#PromptEngineering

2024/07/16

Learn AI 不 BI

AI說書 - 從0開始 - 92

#AI#ai#PromptEngineering

2024/07/16

Learn AI 不 BI

AI說書 - 從0開始 - 91

#AI#ai#PromptEngineering

2024/07/15

Learn AI 不 BI

AI說書 - 從0開始 - 91

#AI#ai#PromptEngineering

2024/07/15

Learn AI 不 BI

AI說書 - 從0開始 - 90

#AI#ai#PromptEngineering

2024/07/15

Learn AI 不 BI

AI說書 - 從0開始 - 90

#AI#ai#PromptEngineering

2024/07/15

Learn AI 不 BI

AI說書 - 從0開始 - 86

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明，有一個很重要的結論：最適合您的模型不一定是排行榜上最好的模型，您需要學習 NLP 評

#AI#ai#PromptEngineering

2024/07/13

Learn AI 不 BI

AI說書 - 從0開始 - 86

#AI#ai#PromptEngineering

2024/07/13

Learn AI 不 BI

AI說書 - 從0開始 - 85

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。新模型和 Human Baselines 排名將不斷變化，Human Baselines 的位置自從基礎模型出現以來，它就不再具有多大意義了，這些排名只是表明經典 NL

#AI#ai#PromptEngineering

2024/07/12

Learn AI 不 BI

AI說書 - 從0開始 - 85

#AI#ai#PromptEngineering

2024/07/12

柴郡貓姍蒂的沙龍

筆記-深度學習論文閱讀：Deep Residual Learning for Image Recognition

前言在閱讀《強化式學習：打造最強 AlphaZero 通用演算法》時，文中介紹了殘差網路，並推薦了兩篇論文；因為在看了書後，對殘差網路的概念還是不很清楚，於是決定用ChatGPT翻譯這兩篇論文來增強理解，以下正文是第一篇論文：Deep Residual Learning for Image Re

#深度學習#人工智慧#殘差網路

2024/07/07

柴郡貓姍蒂的沙龍

筆記-深度學習論文閱讀：Deep Residual Learning for Image Recognition

#深度學習#人工智慧#殘差網路

2024/07/07

Learn AI 不 BI

AI說書 - 從0開始 - 69

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin

#AI#ai#PromptEngineering

2024/07/02

Learn AI 不 BI

AI說書 - 從0開始 - 69

#AI#ai#PromptEngineering

2024/07/02

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News