[深度學習]LSTM模型

發佈於AI深度學習筆記

更新於 2024/07/20發佈於 2024/07/20閱讀時間約 3 分鐘

長短期記憶（英語：Long Short-Term Memory，LSTM）是一種時間循環神經網路（RNN），論文首次發表於1997年。

LSTM（長短期記憶）是一種特定類型的遞歸神經網絡（RNN），在許多需要處理時間序列數據或順序數據的應用中非常有用。

以下是一些常見的 LSTM 應用：

語音識別：LSTM 可以用於將語音信號轉換為文本。例如，語音助手和語音轉文字服務都使用 LSTM 網絡來處理語音數據。
語言建模和文本生成：LSTM 可以預測文本序列中的下一個單詞或字符，用於自動生成文本，如編寫文章、生成對話和寫詩等。
機器翻譯：LSTM 在翻譯系統中廣泛使用，例如 Google 翻譯，它能夠將一種語言的句子翻譯成另一種語言。
情感分析：LSTM 用於從文本中檢測情感，如分析社交媒體帖子、評論和客戶反饋中的情感。
時間序列預測：LSTM 可以用於預測時間序列數據中的未來值，例如股票價格、天氣預測和銷售數據預測。
醫療診斷：LSTM 用於分析患者的醫療數據，以檢測和預測疾病的發展。
音樂生成：LSTM 可以學習音樂的結構並生成新音樂，例如自動作曲。
手寫識別：LSTM 用於識別手寫文字，例如手寫數據的數字化輸入。

典型的長短期記憶（LSTM）單元模型

raw-image

LSTM Cell 的結構和運作

LSTM Cell 主要由三個門（gate）組成：遺忘門（Forget Gate），輸入門（Input Gate）和輸出門（Output Gate）。這些門控制信息在記憶細胞中的流動。以下是每個門的詳細說明：

遺忘門（Forget Gate）：
- 計算公式：

raw-image

- 功能：決定需要忘記多少先前的記憶。通過 sigmoid 函數 σ，輸出一個0到1之間的數值，0表示完全忘記，1表示完全保留。
輸入門（Input Gate）：
- 計算公式：

raw-image

- 功能：決定將多少新的信息存入記憶細胞。輸入門的 sigmoid 函數輸出 iti_tit，以及候選記憶細胞的 tanh 函數輸出 ~Ct。
輸出門（Output Gate）：
- 計算公式：

raw-image

- 功能：決定從記憶細胞輸出多少信息作為當前的隱藏狀態 ht。通過 sigmoid 函數計算 Ot，再經過 tanh 函數處理當前的記憶細胞狀態 Ct。

LSTM Cell 運作步驟

raw-image

紅色箭頭主要表達了記憶細胞狀態和隱藏狀態之間的交互過程，展示了記憶細胞狀態 Ct 如何被計算並進一步影響隱藏狀態 ht。這些步驟是LSTM Cell核心的記憶和輸出機制。

LSTM Cell 的優勢

LSTM Cell 的設計使其能夠有效地處理長期依賴問題，記住長時間跨度內的信息，同時在每一時間步中根據需要添加或刪除信息。這使得 LSTM 在處理時間序列數據和自然語言處理任務（如語音識別、語言翻譯等）中非常有用。

總結來說，圖片中展示的模型是一個 LSTM Cell，主要由遺忘門、輸入門和輸出門組成，這些門共同作用，控制信息在記憶細胞中的流動和更新。

參考文獻

#長短期記憶

#遞歸神經網絡

螃蟹_crab的沙龍AI深度學習筆記模型介紹

留言

留言分享你的想法！

螃蟹_crab的沙龍

147會員

279內容數

本業是影像辨識軟體開發，閒暇時間進修AI相關內容，將學習到的內容寫成文章分享。興趣是攝影，踏青，探索未知領域。人生就是不斷的挑戰及自我認清，希望老了躺在床上不會後悔自己什麼都沒做。

你可能也想看

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

每年4月、5月都是最多稅要繳的月份，當然大部份的人都是有機會繳到「綜合所得稅」，只是相當相當多人還不知道，原來繳給政府的稅！可以透過一些有活動的銀行信用卡或電子支付來繳，從繳費中賺一點點小確幸！就是賺個１%~2%大家也是很開心的，因為你們把沒回饋變成有回饋，就是用卡的最高境界所得稅線上申報

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

每年4月、5月都是最多稅要繳的月份，當然大部份的人都是有機會繳到「綜合所得稅」，只是相當相當多人還不知道，原來繳給政府的稅！可以透過一些有活動的銀行信用卡或電子支付來繳，從繳費中賺一點點小確幸！就是賺個１%~2%大家也是很開心的，因為你們把沒回饋變成有回饋，就是用卡的最高境界所得稅線上申報

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

科技巨頭解碼

NVDA 25Q1 財報 - 扣除中國因素，輝達的前方仍然沒有烏雲 | #276

全球科技產業的焦點，AKA 全村的希望 NVIDIA，於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1，實際日曆期間為今年二到四月)，交出了打敗了市場預期的成績單。然而，在銷售持續高速成長的同時，川普政府加大對於中國的晶片管制......

#NVDA#NVIDIA#輝達

2025/06/18

科技巨頭解碼

NVDA 25Q1 財報 - 扣除中國因素，輝達的前方仍然沒有烏雲 | #276

全球科技產業的焦點，AKA 全村的希望 NVIDIA，於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1，實際日曆期間為今年二到四月)，交出了打敗了市場預期的成績單。然而，在銷售持續高速成長的同時，川普政府加大對於中國的晶片管制......

#NVDA#NVIDIA#輝達

2025/06/18

螃蟹_crab的沙龍

[深度學習]LSTM模型

長短期記憶（英語：Long Short-Term Memory，LSTM）是一種時間循環神經網路（RNN），論文首次發表於1997年。 LSTM（長短期記憶）是一種特定類型的遞歸神經網絡（RNN），在許多需要處理時間序列數據或順序數據的應用中非常有用。以下是一些常見的 LSTM 應用：

#LSTM#深度學習#長短期記憶

2024/07/20

螃蟹_crab的沙龍

[深度學習]LSTM模型

長短期記憶（英語：Long Short-Term Memory，LSTM）是一種時間循環神經網路（RNN），論文首次發表於1997年。 LSTM（長短期記憶）是一種特定類型的遞歸神經網絡（RNN），在許多需要處理時間序列數據或順序數據的應用中非常有用。以下是一些常見的 LSTM 應用：

#LSTM#深度學習#長短期記憶

2024/07/20

Learn AI 不 BI

AI說書 - 從0開始 - 92

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 87 說：Wang 等人 2019 年的論文，提供了合理答案的選擇 (Choice of Plausible Answers, COP

#AI#ai#PromptEngineering

2024/07/16

Learn AI 不 BI

AI說書 - 從0開始 - 92

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 87 說：Wang 等人 2019 年的論文，提供了合理答案的選擇 (Choice of Plausible Answers, COP

#AI#ai#PromptEngineering

2024/07/16

Learn AI 不 BI

AI說書 - 從0開始 - 91

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 87 說：Wang 等人 2019 年的論文，提供了合理答案的選擇 (Choice of Plausible Answers, COP

#AI#ai#PromptEngineering

2024/07/15

Learn AI 不 BI

AI說書 - 從0開始 - 91

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 87 說：Wang 等人 2019 年的論文，提供了合理答案的選擇 (Choice of Plausible Answers, COP

#AI#ai#PromptEngineering

2024/07/15

Learn AI 不 BI

AI說書 - 從0開始 - 90

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 87 說：Wang 等人 2019 年的論文，提供了合理答案的選擇 (Choice of Plausible Answers, COP

#AI#ai#PromptEngineering

2024/07/15

Learn AI 不 BI

AI說書 - 從0開始 - 90

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 87 說：Wang 等人 2019 年的論文，提供了合理答案的選擇 (Choice of Plausible Answers, COP

#AI#ai#PromptEngineering

2024/07/15

Learn AI 不 BI

AI說書 - 從0開始 - 89

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 87 說：Wang 等人 2019 年的論文，提供了合理答案的選擇 (Choice of Plausible Answers, COP

#AI#ai#PromptEngineering

2024/07/14

Learn AI 不 BI

AI說書 - 從0開始 - 89

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 87 說：Wang 等人 2019 年的論文，提供了合理答案的選擇 (Choice of Plausible Answers, COP

#AI#ai#PromptEngineering

2024/07/14

Learn AI 不 BI

AI說書 - 從0開始 - 39

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。首先先展示 Transformer 的架構圖：可以看到架構中不再出現 RNN 、 LSTM 、 CNN 等物件，因為 Recurrence 已被摒棄。

#AI#ai#PromptEngineering

2024/06/22

Learn AI 不 BI

AI說書 - 從0開始 - 39

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。首先先展示 Transformer 的架構圖：可以看到架構中不再出現 RNN 、 LSTM 、 CNN 等物件，因為 Recurrence 已被摒棄。

#AI#ai#PromptEngineering

2024/06/22

Learn AI 不 BI

AI說書 - 從0開始 - 15

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧我們在AI說書 - 從0開始 - 6中說當Context長度是n，且每個字用d維度的向量表示時有以下結論： Attention Layer的複雜度是O(n^2 *

#AI#ai#PromptEngineering

2024/06/14

Learn AI 不 BI

AI說書 - 從0開始 - 15

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧我們在AI說書 - 從0開始 - 6中說當Context長度是n，且每個字用d維度的向量表示時有以下結論： Attention Layer的複雜度是O(n^2 *

#AI#ai#PromptEngineering

2024/06/14

朵小芸的草味沙龍

SLM是什麼？探索小型語言模型的未來趨勢

在AI時代中，GPT技術正在改變我們的生活。然而，SLM（小型語言模型）也開始受到關注，具有更高的效率、更低的資源消耗和更快的響應速度。這篇文章將討論LLM和SLM的比較、SLM的應用場景以及未來的發展趨勢。

#SLM#LLM#大語言模型

2024/06/06

朵小芸的草味沙龍

SLM是什麼？探索小型語言模型的未來趨勢

在AI時代中，GPT技術正在改變我們的生活。然而，SLM（小型語言模型）也開始受到關注，具有更高的效率、更低的資源消耗和更快的響應速度。這篇文章將討論LLM和SLM的比較、SLM的應用場景以及未來的發展趨勢。

#SLM#LLM#大語言模型

2024/06/06

Marcos的方格子

大型語言模型常用的提詞框架 | Coursera 課程回顧(下)

大型語言模型（Large Language Model，LLM）是一項人工智慧技術，其目的在於理解和生成人類語言，可將其想像成一種高階的「文字預測機器」，然而，它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外，今天我們會介紹使用 LLM 的框架。

#PromptPattern#LLM#ChatGPT

2024/03/09

Marcos的方格子

大型語言模型常用的提詞框架 | Coursera 課程回顧(下)

大型語言模型（Large Language Model，LLM）是一項人工智慧技術，其目的在於理解和生成人類語言，可將其想像成一種高階的「文字預測機器」，然而，它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外，今天我們會介紹使用 LLM 的框架。

#PromptPattern#LLM#ChatGPT

2024/03/09

私大王牌教授 (私人大學ACE) feat. mr gary

66個大型語言模型LLM經典論文

2023/12/31

私大王牌教授 (私人大學ACE) feat. mr gary

66個大型語言模型LLM經典論文

2023/12/31

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News