第二部:《深度學習》33/100 梯度消失與長短期記憶 LSTM 💡 解決 RNN 的遺忘問題!

更新 發佈閱讀 8 分鐘

AI時代系列(2) 機器學習三部曲: 🔹 第二部:《深度學習 —— 神經網路的革命》

33/100 第四週:📌 循環神經網路 RNN

33.梯度消失與長短期記憶 LSTM 💡 解決 RNN 的遺忘問題!

________________________________________

✅ 問題導入:RNN 忘太快了!

RNN 雖然能記住短時間內的資訊,但當序列太長時,就會出現:

梯度消失(Vanishing Gradient)

梯度爆炸(Exploding Gradient)

📌 結果就是:前面的資訊還沒處理完,就在學習過程中「淡忘」了!

________________________________________

📉 為什麼會梯度消失?

在反向傳播(BPTT)時,參數會不斷乘上導數(<1),

當序列長度一拉長,這些值就會變得極小:

δt=δt+1⋅W⋅f′(ht)

這條公式 描述了 RNN 在反向傳播時的梯度遞迴關係,是 BPTT(時間反向傳播)中的關鍵步驟。它表示當前時間步的誤差梯度 δt來自下一步的誤差 δt+1,經由遞迴權重 W 傳回,並乘上激活函數對隱藏狀態的導數 f′(ht)。這樣的誤差鏈條讓模型能夠逐步修正序列中的每個時間步,但也因此容易出現梯度消失或爆炸的問題,特別在處理長序列時,需要更穩定的單元如 LSTM 或 GRU 來改善。

❌ 結果:早期訊息的誤差幾乎傳不回去 → 模型「記不住久遠的記憶」。

________________________________________

💡 解法登場:LSTM!

LSTM(Long Short-Term Memory)是一種改良的 RNN 結構,

由 Hochreiter & Schmidhuber 於 1997 年提出,能記得長期資訊,又不遺忘短期關鍵!

________________________________________

🧠 LSTM 與 RNN 的最大不同:

RNN:只有一條「隱藏狀態 h」

LSTM:多了一條「記憶單元 c(Cell State)」,可以「帶著記憶走很久」

________________________________________


🧩 LSTM 結構簡圖(每個時間步 t):

┌────────────┐

xt ──►──►│ Forget │──────────┐

└────────────┘ ▼

┌────────────┐ ┌────────┐

xt ──►──►│ Input Gate │─►───│ Cell c │─────►─── ct

└────────────┘ └────────┘

┌────────────┐ │

xt ──►──►│ Output Gate │─────────┘

└────────────┘ → ht


這張圖示描繪的是 LSTM(長短期記憶網路)單元的結構流程圖,顯示 LSTM 如何透過三個核心「閘門」機制來控制資訊的流動與記憶的更新:

• Forget Gate(遺忘閘門):決定要遺忘多少先前單元狀態(ct−1)的資訊;

• Input Gate(輸入閘門):決定要將多少新輸入資訊(xt)寫入記憶單元 ct;

• Cell(記憶單元):保存並更新長期記憶狀態 ct ;

• Output Gate(輸出閘門):控制記憶的哪一部分要輸出作為當前時間步的隱藏狀態 ht。

透過這種設計,LSTM 能夠保留重要資訊、忽略不相關內容,並有效解決 RNN 在處理長序列時的梯度消失問題,廣泛應用於語音辨識、機器翻譯與時間序列預測等任務。

✅ 加法與乘法設計可避免梯度消失!

________________________________________

🏁 LSTM 的學習邏輯(每步摘要):

1. 忘記不重要的記憶(forget gate)

2. 選擇性接收新資訊(input gate)

3. 更新記憶(cell state)

4. 根據目前記憶輸出(output gate)

________________________________________

⚙️ TensorFlow / Keras 建立 LSTM 模型:

python

from tensorflow.keras.models import Sequential

from tensorflow.keras.layers import LSTM, Dense

model = Sequential([

LSTM(128, input_shape=(100, 64)), # 100 時間步、64 特徵

Dense(1, activation='sigmoid')

])

這段程式碼建立了一個以 LSTM(長短期記憶網路)為核心的序列模型,用於處理具有時間依賴性的資料。輸入資料的形狀為 (100, 64),代表每筆樣本是一個長度為 100 的序列,每個時間步包含 64 維特徵;LSTM(128) 表示使用 128 個記憶單元來學習序列中的時間模式與長期依賴;接著透過一個 Dense 全連接層並使用 sigmoid 激活函數輸出一個介於 0 和 1 的機率值,適合應用於二分類任務,如情感分析、異常偵測或趨勢預測等。

📌 可用於情感分析、股價預測、時間序列分類等。

________________________________________

🔄 LSTM vs RNN 比較表:

·  記憶範圍

·        RNN:適合短期記憶

·        LSTM:可兼顧長期與短期記憶

·  梯度消失問題

·        RNN:容易發生梯度消失或爆炸

·        LSTM:透過門控與記憶單元機制,幾乎解決此問題

·  結構複雜度

·        RNN:結構簡單

·        LSTM:包含輸入門、遺忘門、輸出門及記憶單元,結構較複雜

·  適用任務

·        RNN:短文本、序列標記(如 POS tagging、簡單時間序列)

·        LSTM:長文本、機器翻譯、語音辨識、時序預測等需長期依賴的任務

________________________________________

🎯 小結與啟示:

✅ RNN 容易忘記長期依賴 → 需要 LSTM 來強化記憶能力

✅ LSTM 透過三道門設計,有效控制哪些該記、該忘、該輸出

✅ 幾乎所有 NLP、語音、時序模型都用 LSTM 或其變種(GRU、BiLSTM)


留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
16會員
353內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/09/04
RNN(循環神經網路)是一種專門用來處理序列資料的神經網路架構,它最大的特色是能夠「記住過去的資訊」,將前一時間步的輸出作為當前輸入的一部分,形成一種時間上的記憶鏈。這使得 RNN 特別適合處理像語音、文字、時間序列數據等有順序關係的任務。
2025/09/04
RNN(循環神經網路)是一種專門用來處理序列資料的神經網路架構,它最大的特色是能夠「記住過去的資訊」,將前一時間步的輸出作為當前輸入的一部分,形成一種時間上的記憶鏈。這使得 RNN 特別適合處理像語音、文字、時間序列數據等有順序關係的任務。
2025/09/04
RNN(循環神經網路)具備記憶先前輸入的能力,能保留上下文資訊,特別適合處理語音、文字、時間序列等具備時間關聯性的資料。相較之下,MLP 與 CNN 無法記憶過去輸入,僅適合處理圖像、表格等固定特徵的任務。因此,RNN 是理解序列建模與發展 Transformer 等進階模型的重要基礎。
2025/09/04
RNN(循環神經網路)具備記憶先前輸入的能力,能保留上下文資訊,特別適合處理語音、文字、時間序列等具備時間關聯性的資料。相較之下,MLP 與 CNN 無法記憶過去輸入,僅適合處理圖像、表格等固定特徵的任務。因此,RNN 是理解序列建模與發展 Transformer 等進階模型的重要基礎。
2025/09/04
卷積神經網路(CNN)是一種模仿人類視覺皮質運作方式的深度學習模型,特別擅長處理圖像資料。透過卷積層提取局部特徵、池化層進行降維壓縮,再經由全連接層進行分類,CNN 可有效辨識圖像中的邊緣、形狀與紋理,廣泛應用於影像辨識、醫療影像分析、無人駕駛等領域。
2025/09/04
卷積神經網路(CNN)是一種模仿人類視覺皮質運作方式的深度學習模型,特別擅長處理圖像資料。透過卷積層提取局部特徵、池化層進行降維壓縮,再經由全連接層進行分類,CNN 可有效辨識圖像中的邊緣、形狀與紋理,廣泛應用於影像辨識、醫療影像分析、無人駕駛等領域。
看更多
你可能也想看
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 新模型和 Human Baselines 排名將不斷變化,Human Baselines 的位置自從基礎模型出現以來,它就不再具有多大意義了,這些排名只是表明經典 NL
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 新模型和 Human Baselines 排名將不斷變化,Human Baselines 的位置自從基礎模型出現以來,它就不再具有多大意義了,這些排名只是表明經典 NL
Thumbnail
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》時,文中介紹了殘差網路,並推薦了兩篇論文;因為在看了書後,對殘差網路的概念還是不很清楚,於是決定用ChatGPT翻譯這兩篇論文來增強理解,以下正文是第一篇論文:Deep Residual Learning for Image Re
Thumbnail
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》時,文中介紹了殘差網路,並推薦了兩篇論文;因為在看了書後,對殘差網路的概念還是不很清楚,於是決定用ChatGPT翻譯這兩篇論文來增強理解,以下正文是第一篇論文:Deep Residual Learning for Image Re
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News