LSTM (Long Short-Term Memory)

更新於 發佈於 閱讀時間約 4 分鐘

"LSTM (Long Short-Term Memory)" 是一種特殊的遞迴神經網路 (RNN) 架構,旨在解決標準 RNN 在處理長序列數據時遇到的梯度消失和記憶長期依賴關係困難的問題。它通過引入稱為「門 (gates)」的機制來控制信息的流動,使其能夠更好地學習和保留長期信息。

你可以將 LSTM 想像成一個擁有更複雜記憶功能的 RNN 單元。標準 RNN 的隱藏狀態在每個時間步都會被完全覆蓋,而 LSTM 則擁有一個額外的「單元狀態 (cell state)」,這個單元狀態可以像一條傳送帶一樣,在時間上攜帶重要的信息,並且能夠通過門機制進行修改。

LSTM 的核心組件:門 (Gates)

LSTM 單元主要由三個門控制信息的流動:

  1. 遺忘門 (Forget Gate): 決定哪些來自先前單元狀態的信息應該被遺忘。它接收前一個時間步的隱藏狀態和當前輸入,並輸出一個 0 到 1 之間的值,表示遺忘的程度(0 表示完全遺忘,1 表示完全保留)。
  2. 輸入門 (Input Gate): 決定哪些來自當前輸入的信息應該被更新到單元狀態中。它也接收前一個時間步的隱藏狀態和當前輸入,並輸出兩個部分:
    • 一個決定哪些信息需要更新的Sigmoid層。 一個候選值的Tanh層,表示可能要加入到單元狀態的新信息。 然後,這兩個輸出會進行元素級的乘法,決定哪些新的信息真正被添加到單元狀態中。
  3. 輸出門 (Output Gate): 決定當前單元狀態中的哪些信息應該作為當前時間步的輸出(隱藏狀態)。它接收前一個時間步的隱藏狀態和當前輸入,並輸出一個 0 到 1 之間的值,表示輸出的程度。然後,它會將當前單元狀態通過一個 Tanh 函數進行處理,並與輸出門的輸出進行元素級的乘法,最終得到當前時間步的隱藏狀態。

LSTM 的運作方式 (簡化版):

  1. 遺忘階段: 遺忘門根據先前的隱藏狀態和當前輸入,決定哪些舊信息應該從單元狀態中丟棄。
  2. 輸入階段: 輸入門根據先前的隱藏狀態和當前輸入,決定哪些新的信息應該被添加到單元狀態中。
  3. 更新階段: 結合遺忘門和輸入門的決策,更新單元狀態。
  4. 輸出階段: 輸出門根據更新後的單元狀態、先前的隱藏狀態和當前輸入,決定當前時間步的輸出(新的隱藏狀態)。

LSTM 的優點:

  • 緩解梯度消失問題: LSTM 的門機制可以有效地控制梯度的流動,使得梯度在反向傳播時不容易消失,從而可以訓練更深的 RNN 和處理更長的序列。
  • 記憶長期依賴關係: 單元狀態的引入使得 LSTM 能夠在很長的時間跨度內保留和利用信息,這對於理解長文本、時間序列預測等任務非常重要。

LSTM 的應用:

由於其優越的性能,LSTM 被廣泛應用於各種序列數據處理任務,包括:

  • 自然語言處理 (NLP):
    • 文本生成 (Text Generation) 機器翻譯 (Machine Translation) 情感分析 (Sentiment Analysis) 問答系統 (Question Answering)
  • 語音辨識 (Speech Recognition)
  • 時間序列預測 (Time Series Forecasting)
  • 影像描述 (Image Captioning)
  • 音樂生成 (Music Generation)

總之,LSTM 是一種非常強大且廣泛使用的遞迴神經網路變體,它通過引入門機制有效地解決了標準 RNN 的一些關鍵問題,並在處理各種序列數據任務中取得了巨大的成功。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
4會員
223內容數
現職 : 富邦建設資訊副理 經濟部 iPAS AI應用規劃師
2025/05/24
「梯度爆炸 (Exploding Gradients)」就是另一個在訓練深度神經網路時可能遇到的問題,尤其是在遞迴神經網路 (RNNs) 中。 梯度爆炸是指在反向傳播 (Backpropagation) 演算法中,當梯度從輸出層向輸入層傳播時,可能會變得異常的大。 為什麼會發生梯度爆炸? 梯度
2025/05/24
「梯度爆炸 (Exploding Gradients)」就是另一個在訓練深度神經網路時可能遇到的問題,尤其是在遞迴神經網路 (RNNs) 中。 梯度爆炸是指在反向傳播 (Backpropagation) 演算法中,當梯度從輸出層向輸入層傳播時,可能會變得異常的大。 為什麼會發生梯度爆炸? 梯度
2025/05/24
在訓練深度神經網路(包括遞迴神經網路 RNNs 和更深層的前饋神經網路)時,梯度消失是一個常見的問題。它指的是在反向傳播 (Backpropagation) 演算法中,當梯度從輸出層向輸入層傳播時,可能會變得越來越小,甚至趨近於零。 為什麼會發生梯度消失? 這主要是因為以下兩個原因: 激活函數
2025/05/24
在訓練深度神經網路(包括遞迴神經網路 RNNs 和更深層的前饋神經網路)時,梯度消失是一個常見的問題。它指的是在反向傳播 (Backpropagation) 演算法中,當梯度從輸出層向輸入層傳播時,可能會變得越來越小,甚至趨近於零。 為什麼會發生梯度消失? 這主要是因為以下兩個原因: 激活函數
2025/05/24
"遞迴神經網路 (Recurrent Neural Network, RNN)" 是一種特別設計來處理序列數據的神經網路。和傳統的前饋神經網路不同的是,RNN 具有「記憶」能力,能夠利用先前輸入的資訊來影響後續的輸出。 你可以想像一下,當你閱讀一篇文章時,你不會孤立地理解每一個字,而是會根據前面讀
2025/05/24
"遞迴神經網路 (Recurrent Neural Network, RNN)" 是一種特別設計來處理序列數據的神經網路。和傳統的前饋神經網路不同的是,RNN 具有「記憶」能力,能夠利用先前輸入的資訊來影響後續的輸出。 你可以想像一下,當你閱讀一篇文章時,你不會孤立地理解每一個字,而是會根據前面讀
看更多
你可能也想看
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
長短期記憶(英語:Long Short-Term Memory,LSTM)是一種時間循環神經網路(RNN),論文首次發表於1997年。 LSTM(長短期記憶)是一種特定類型的遞歸神經網絡(RNN),在許多需要處理時間序列數據或順序數據的應用中非常有用。 以下是一些常見的 LSTM 應用:
Thumbnail
長短期記憶(英語:Long Short-Term Memory,LSTM)是一種時間循環神經網路(RNN),論文首次發表於1997年。 LSTM(長短期記憶)是一種特定類型的遞歸神經網絡(RNN),在許多需要處理時間序列數據或順序數據的應用中非常有用。 以下是一些常見的 LSTM 應用:
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 接著來談 Transformer 架構中的 Feedforward Network (FFN): 其為全連接的神經網路架構 回顧 AI說書 - 從0開始 - 64
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 接著來談 Transformer 架構中的 Feedforward Network (FFN): 其為全連接的神經網路架構 回顧 AI說書 - 從0開始 - 64
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 首先先展示 Transformer 的架構圖: 可以看到架構中不再出現 RNN 、 LSTM 、 CNN 等物件,因為 Recurrence 已被摒棄。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 首先先展示 Transformer 的架構圖: 可以看到架構中不再出現 RNN 、 LSTM 、 CNN 等物件,因為 Recurrence 已被摒棄。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - 從0開始 - 6中說當Context長度是n,且每個字用d維度的向量表示時有以下結論: Attention Layer的複雜度是O(n^2 *
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - 從0開始 - 6中說當Context長度是n,且每個字用d維度的向量表示時有以下結論: Attention Layer的複雜度是O(n^2 *
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - 從0開始 - 6中說當Context長度是n,且每個字用d維度的向量表示時有以下結論: Attention Layer的複雜度是O(n^2 *
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - 從0開始 - 6中說當Context長度是n,且每個字用d維度的向量表示時有以下結論: Attention Layer的複雜度是O(n^2 *
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - 從0開始 - 6中說當Context長度是n,且每個字用d維度的向量表示時有以下結論: Attention Layer的複雜度是O(n^2 *
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - 從0開始 - 6中說當Context長度是n,且每個字用d維度的向量表示時有以下結論: Attention Layer的複雜度是O(n^2 *
Thumbnail
在AI時代中,GPT技術正在改變我們的生活。然而,SLM(小型語言模型)也開始受到關注,具有更高的效率、更低的資源消耗和更快的響應速度。這篇文章將討論LLM和SLM的比較、SLM的應用場景以及未來的發展趨勢。
Thumbnail
在AI時代中,GPT技術正在改變我們的生活。然而,SLM(小型語言模型)也開始受到關注,具有更高的效率、更低的資源消耗和更快的響應速度。這篇文章將討論LLM和SLM的比較、SLM的應用場景以及未來的發展趨勢。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News