郝信華 iPAS AI應用規劃師學習筆記

LSTM (Long Short-Term Memory)

iPAS AI應用規劃師學習筆記

發佈於自然語言處理與應用

2025/08/08 更新2025/05/24 發佈閱讀 4 分鐘

"LSTM (Long Short-Term Memory)" 是一種特殊的遞迴神經網路 (RNN) 架構，旨在解決標準 RNN 在處理長序列數據時遇到的梯度消失和記憶長期依賴關係困難的問題。它通過引入稱為「門 (gates)」的機制來控制信息的流動，使其能夠更好地學習和保留長期信息。

你可以將 LSTM 想像成一個擁有更複雜記憶功能的 RNN 單元。標準 RNN 的隱藏狀態在每個時間步都會被完全覆蓋，而 LSTM 則擁有一個額外的「單元狀態 (cell state)」，這個單元狀態可以像一條傳送帶一樣，在時間上攜帶重要的信息，並且能夠通過門機制進行修改。

LSTM 的核心組件：門 (Gates)

LSTM 單元主要由三個門控制信息的流動：

遺忘門 (Forget Gate): 決定哪些來自先前單元狀態的信息應該被遺忘。它接收前一個時間步的隱藏狀態和當前輸入，並輸出一個 0 到 1 之間的值，表示遺忘的程度（0 表示完全遺忘，1 表示完全保留）。
輸入門 (Input Gate): 決定哪些來自當前輸入的信息應該被更新到單元狀態中。它也接收前一個時間步的隱藏狀態和當前輸入，並輸出兩個部分：
- 一個決定哪些信息需要更新的Sigmoid層。一個候選值的Tanh層，表示可能要加入到單元狀態的新信息。然後，這兩個輸出會進行元素級的乘法，決定哪些新的信息真正被添加到單元狀態中。
輸出門 (Output Gate): 決定當前單元狀態中的哪些信息應該作為當前時間步的輸出（隱藏狀態）。它接收前一個時間步的隱藏狀態和當前輸入，並輸出一個 0 到 1 之間的值，表示輸出的程度。然後，它會將當前單元狀態通過一個 Tanh 函數進行處理，並與輸出門的輸出進行元素級的乘法，最終得到當前時間步的隱藏狀態。

LSTM 的運作方式 (簡化版):

遺忘階段： 遺忘門根據先前的隱藏狀態和當前輸入，決定哪些舊信息應該從單元狀態中丟棄。
輸入階段： 輸入門根據先前的隱藏狀態和當前輸入，決定哪些新的信息應該被添加到單元狀態中。
更新階段： 結合遺忘門和輸入門的決策，更新單元狀態。
輸出階段： 輸出門根據更新後的單元狀態、先前的隱藏狀態和當前輸入，決定當前時間步的輸出（新的隱藏狀態）。

LSTM 的優點：

緩解梯度消失問題： LSTM 的門機制可以有效地控制梯度的流動，使得梯度在反向傳播時不容易消失，從而可以訓練更深的 RNN 和處理更長的序列。
記憶長期依賴關係： 單元狀態的引入使得 LSTM 能夠在很長的時間跨度內保留和利用信息，這對於理解長文本、時間序列預測等任務非常重要。

LSTM 的應用：

由於其優越的性能，LSTM 被廣泛應用於各種序列數據處理任務，包括：

自然語言處理 (NLP):
- 文本生成 (Text Generation) 機器翻譯 (Machine Translation) 情感分析 (Sentiment Analysis) 問答系統 (Question Answering)
語音辨識 (Speech Recognition)
時間序列預測 (Time Series Forecasting)
影像描述 (Image Captioning)
音樂生成 (Music Generation)

總之，LSTM 是一種非常強大且廣泛使用的遞迴神經網路變體，它通過引入門機制有效地解決了標準 RNN 的一些關鍵問題，並在處理各種序列數據任務中取得了巨大的成功。

含 AI 應用內容

#自然語言處理技術與應用

郝信華 iPAS AI應用規劃師學習筆記自然語言處理與應用序列模型與架構

留言

留言分享你的想法！

郝信華 iPAS AI應用規劃師學習筆記

30會員

495內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師 (初級) AWS Certified AI Practitioner (AIF-C01) 經濟部 iPAS AI應用規劃師數據分析 (中級)

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/05/24

梯度爆炸(Exploding Gradients)

「梯度爆炸 (Exploding Gradients)」就是另一個在訓練深度神經網路時可能遇到的問題，尤其是在遞迴神經網路 (RNNs) 中。梯度爆炸是指在反向傳播 (Backpropagation) 演算法中，當梯度從輸出層向輸入層傳播時，可能會變得異常的大。為什麼會發生梯度爆炸？梯度

2025/05/24

梯度爆炸(Exploding Gradients)

「梯度爆炸 (Exploding Gradients)」就是另一個在訓練深度神經網路時可能遇到的問題，尤其是在遞迴神經網路 (RNNs) 中。梯度爆炸是指在反向傳播 (Backpropagation) 演算法中，當梯度從輸出層向輸入層傳播時，可能會變得異常的大。為什麼會發生梯度爆炸？梯度

2025/05/24

梯度消失 (Vanishing Gradient)

在訓練深度神經網路（包括遞迴神經網路 RNNs 和更深層的前饋神經網路）時，梯度消失是一個常見的問題。它指的是在反向傳播 (Backpropagation) 演算法中，當梯度從輸出層向輸入層傳播時，可能會變得越來越小，甚至趨近於零。為什麼會發生梯度消失？這主要是因為以下兩個原因：激活函數

2025/05/24

梯度消失 (Vanishing Gradient)

在訓練深度神經網路（包括遞迴神經網路 RNNs 和更深層的前饋神經網路）時，梯度消失是一個常見的問題。它指的是在反向傳播 (Backpropagation) 演算法中，當梯度從輸出層向輸入層傳播時，可能會變得越來越小，甚至趨近於零。為什麼會發生梯度消失？這主要是因為以下兩個原因：激活函數

2025/05/24

遞迴神經網路 (Recurrent Neural Network, RNN)

"遞迴神經網路 (Recurrent Neural Network, RNN)" 是一種特別設計來處理序列數據的神經網路。和傳統的前饋神經網路不同的是，RNN 具有「記憶」能力，能夠利用先前輸入的資訊來影響後續的輸出。你可以想像一下，當你閱讀一篇文章時，你不會孤立地理解每一個字，而是會根據前面讀

2025/05/24

遞迴神經網路 (Recurrent Neural Network, RNN)

"遞迴神經網路 (Recurrent Neural Network, RNN)" 是一種特別設計來處理序列數據的神經網路。和傳統的前饋神經網路不同的是，RNN 具有「記憶」能力，能夠利用先前輸入的資訊來影響後續的輸出。你可以想像一下，當你閱讀一篇文章時，你不會孤立地理解每一個字，而是會根據前面讀

你可能也想看

黛•Adele的生活隨筆

清爽果香系香水推薦｜以週四的輕快節奏，讓熱帶果香喚醒心裡那份自由｜Sunkronizo Playful Heart

Sunkronizo 的 Playful Heart 是一款帶著明亮果香與柔和木質調的甜感香水，特別適合星期四使用。前調活潑、尾韻沉靜，陪你從忙碌過渡到週末的輕鬆心情。適合喜歡果香、花果香調的女性，也很適合作為溫暖又有個性的送禮選擇。可於官網、Pinkoi 選購，11 月底起於臺中國家歌劇院寄售。

#香水#香水評論#試香

2025/11/25

黛•Adele的生活隨筆

清爽果香系香水推薦｜以週四的輕快節奏，讓熱帶果香喚醒心裡那份自由｜Sunkronizo Playful Heart

Sunkronizo 的 Playful Heart 是一款帶著明亮果香與柔和木質調的甜感香水，特別適合星期四使用。前調活潑、尾韻沉靜，陪你從忙碌過渡到週末的輕鬆心情。適合喜歡果香、花果香調的女性，也很適合作為溫暖又有個性的送禮選擇。可於官網、Pinkoi 選購，11 月底起於臺中國家歌劇院寄售。

#香水#香水評論#試香

2025/11/25

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 129 中說，Bidirectional Encoder Representations from Transformers (BER

#AI#ai#PromptEngineering

2024/08/13

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 129 中說，Bidirectional Encoder Representations from Transformers (BER

#AI#ai#PromptEngineering

2024/08/13

螃蟹_crab的沙龍

[深度學習]LSTM模型

長短期記憶（英語：Long Short-Term Memory，LSTM）是一種時間循環神經網路（RNN），論文首次發表於1997年。 LSTM（長短期記憶）是一種特定類型的遞歸神經網絡（RNN），在許多需要處理時間序列數據或順序數據的應用中非常有用。以下是一些常見的 LSTM 應用：

#LSTM#深度學習#長短期記憶

2024/07/20

螃蟹_crab的沙龍

[深度學習]LSTM模型

長短期記憶（英語：Long Short-Term Memory，LSTM）是一種時間循環神經網路（RNN），論文首次發表於1997年。 LSTM（長短期記憶）是一種特定類型的遞歸神經網絡（RNN），在許多需要處理時間序列數據或順序數據的應用中非常有用。以下是一些常見的 LSTM 應用：

#LSTM#深度學習#長短期記憶

2024/07/20

Learn AI 不 BI

AI說書 - 從0開始 - 91

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 87 說：Wang 等人 2019 年的論文，提供了合理答案的選擇 (Choice of Plausible Answers, COP

#AI#ai#PromptEngineering

2024/07/15

Learn AI 不 BI

AI說書 - 從0開始 - 91

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 87 說：Wang 等人 2019 年的論文，提供了合理答案的選擇 (Choice of Plausible Answers, COP

#AI#ai#PromptEngineering

2024/07/15

Learn AI 不 BI

AI說書 - 從0開始 - 65

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。接著來談 Transformer 架構中的 Feedforward Network (FFN)：其為全連接的神經網路架構回顧 AI說書 - 從0開始 - 64

#AI#ai#PositionalEncoding

2024/06/29

Learn AI 不 BI

AI說書 - 從0開始 - 65

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。接著來談 Transformer 架構中的 Feedforward Network (FFN)：其為全連接的神經網路架構回顧 AI說書 - 從0開始 - 64

#AI#ai#PositionalEncoding

2024/06/29

Learn AI 不 BI

AI說書 - 從0開始 - 39

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。首先先展示 Transformer 的架構圖：可以看到架構中不再出現 RNN 、 LSTM 、 CNN 等物件，因為 Recurrence 已被摒棄。

#AI#ai#PromptEngineering

2024/06/22

Learn AI 不 BI

AI說書 - 從0開始 - 39

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。首先先展示 Transformer 的架構圖：可以看到架構中不再出現 RNN 、 LSTM 、 CNN 等物件，因為 Recurrence 已被摒棄。

#AI#ai#PromptEngineering

2024/06/22

Learn AI 不 BI

AI說書 - 從0開始 - 15

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧我們在AI說書 - 從0開始 - 6中說當Context長度是n，且每個字用d維度的向量表示時有以下結論： Attention Layer的複雜度是O(n^2 *

#AI#ai#PromptEngineering

2024/06/14

Learn AI 不 BI

AI說書 - 從0開始 - 15

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧我們在AI說書 - 從0開始 - 6中說當Context長度是n，且每個字用d維度的向量表示時有以下結論： Attention Layer的複雜度是O(n^2 *

#AI#ai#PromptEngineering

2024/06/14

Learn AI 不 BI

AI說書 - 從0開始 - 11

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧我們在AI說書 - 從0開始 - 6中說當Context長度是n，且每個字用d維度的向量表示時有以下結論： Attention Layer的複雜度是O(n^2 *

#AI#ai#PromptEngineering

2024/06/11

Learn AI 不 BI

AI說書 - 從0開始 - 11

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧我們在AI說書 - 從0開始 - 6中說當Context長度是n，且每個字用d維度的向量表示時有以下結論： Attention Layer的複雜度是O(n^2 *

#AI#ai#PromptEngineering

2024/06/11

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News