深入淺出 LSTM：如何打造一個擁有「超級記憶力」的大腦

Hank吳

2025/07/21 更新2025/07/21 發佈閱讀 7 分鐘

我們來深入淺出地拆解一下比 RNN 更強大的 LSTM 模型。

在上一篇文章中，我們認識了 RNN，它像一個有短期記憶的學徒，能夠記住緊鄰的上下文。但如果句子很長，資訊很複雜，RNN 就會像金魚腦一樣，忘記開頭的關鍵資訊。這就是所謂的「長期依賴問題」。

為了解決這個難題，一種更精密的模型——LSTM (Long Short-Term Memory，長短期記憶網絡)——應運而生。

你可以把 LSTM 看作是 RNN 的「Pro Max 升級版」。它不僅有記憶，更有一套管理記憶的智慧系統，懂得什麼該記、什麼該忘，以及什麼時候該用。

LSTM 的核心原理：高速公路與智慧閘門

LSTM 的設計核心在於引入了一個全新的概念：「細胞狀態 (Cell State)」。

把它想像成一條貫穿整個模型的「記憶高速公路」。這條高速公路非常特別，資訊可以在上面一路暢行，幾乎沒有阻礙，從而確保了長期記憶的穩定傳遞。

但是，只有一條高速公路還不夠，如果什麼資訊都往上丟，很快就會造成交通堵塞。因此，LSTM 精巧地設計了三個「智慧閘門 (Gates)」來擔任交通管制員，負責管理這條高速公路上的資訊流。

這三個閘門，就是 LSTM 的精髓所在。

(圖說：LSTM 的核心結構，上方是「記憶高速公路」(Cell State)，下方是三個控制資訊進出的「閘門」)

三大智慧閘門：記憶的守門員

這三個閘門各自掌管著一項關鍵任務：遺忘、輸入、輸出。它們會根據當前的輸入和過去的記憶，來決定開門或關門（在數學上，這通過一個 0 到 1 之間的數值來實現，0 代表「完全關閉」，1 代表「完全打開」）。

1. 遺忘門 (Forget Gate)：決定該丟掉什麼舊記憶

任務：檢查過去的記憶，決定哪些部分已經不重要了，應該被「遺忘」。

場景：假設模型正在分析一篇新聞報導。

* 它讀到第一句：「今天台北的天氣非常晴朗...」

* 此時，「記憶高速公路」上記錄了「地點：台北」、「天氣：晴朗」。

* 接著讀到第二句：「...報導的焦點轉向了高雄，當地市長發表了新的城市建設計劃。」

* 當模型讀到「高雄」時，遺忘門就會被觸發。它會判斷：「接下來的內容和『台北』、『天氣』無關了。」

* 於是，遺忘門會打開，將關於「台北天氣」的舊記憶從高速公路上清除掉，為新的、更重要的資訊騰出空間。

(圖說：遺忘門決定從 Cell State 中丟棄哪些資訊)

2. 輸入門 (Input Gate)：決定要記住什麼新資訊

任務：審核當前的新資訊，判斷哪些部分是重要的，值得被寫入「記憶高速公路」。

場景：繼續上面的新聞報導。

* 模型讀到：「...高雄市長發表了新的城市建設計劃，其中最引人注目的是『亞洲新灣區 2.0』項目。」

* 輸入門會開始工作。它會分析這句話，並認為「高雄市長」、「城市建設計劃」、「亞洲新灣區 2.0」是關鍵資訊。

* 於是，輸入門會打開，將這些篩選過的新資訊，更新到「記憶高速公路」上。

(圖說：輸入門決定讓哪些新資訊進入 Cell State)

3. 輸出門 (Output Gate)：決定此刻該輸出什麼

任務：根據當前的上下文，從「記憶高速公路」上提取出最相關的記憶，作為當前的輸出。

場景：文章結尾提出了一個問題：「那麼，對於這個位於南台灣的大型項目，中央政府的態度是什麼？」

* 模型需要回答這個問題（或者說，生成下一句話）。

* 輸出門會被觸發。它會分析這個問題，知道重點是「南台灣的大型項目」。

* 然後，它會回頭看「記憶高速公路」，發現上面記錄著「高雄市長」、「城市建設計劃」、「亞洲新灣區 2.0」這些高度相關的記憶。

* 輸出門便會將這些資訊提取出來，作為當前的輸出，從而可能生成一句話：「中央政府對『亞洲新灣區 2.0』計劃表示樂觀其成...」

* 它不會輸出無關的舊記憶（比如已經被遺忘的「台北天氣」）。

(圖說：輸出門決定從 Cell State 中輸出哪些資訊)

一個完整的範例：分析電商評論

假設你是一家手機品牌的經理，你想用 LSTM 模型來自動分析用戶評論是「正面」還是「負面」。

評論：「這支手機的設計和螢幕真的很棒，我非常喜歡！不過，電池續航力在我看來是個致命的缺點。」

LSTM 的分析流程：

* 讀到「設計和螢幕真的很棒」：

* 輸入門打開，將「設計棒」、「螢幕棒」等正面資訊寫入「記憶高速公路」。

* 遺忘門保持關閉，因為還沒有需要忘記的舊資訊。

* 讀到「我非常喜歡」：

* 輸入門繼續強化正面情緒的記憶。

* 此時「記憶高速公路」上的主要基調是非常正面。

* 讀到「不過」：

* 這是一個關鍵轉折詞！

* 遺忘門可能會被觸發，它意識到接下來的內容可能與前面的讚美無關，於是稍微調低了前面正面資訊的權重，準備迎接新資訊。

* 輸入門也準備好記錄新的重點。

* 讀到「電池續航力...是個致命的缺點」：

* 輸入門捕捉到「電池續航力差」、「致命缺點」這些強烈的負面資訊，並將它們寫入「記憶高速公路」。

* 遺忘門可能在此時會進一步清除或壓抑之前「設計很棒」的記憶，因為「致命缺點」這個詞的權重可能更高。

* 分析結束，做出最終判斷：

* 輸出門檢視整條「記憶高速公路」。雖然前面有正面資訊，但最後被強烈的負面資訊覆蓋和主導。

* 模型最終的輸出結論：負面評論。

通過這套精巧的閘門系統，LSTM 不僅能理解句子的表面意思，更能捕捉到情緒的轉折、上下文的依賴關係，即使是在很長的段落中也能游刃有餘。正是這種強大的長期記憶能力，讓它在機器翻譯、文章摘要、情感分析等複雜任務上取得了巨大的成功。

留言

留言分享你的想法！

Hank吳的沙龍

1會員

94內容數

這不僅僅是一個 Blog，更是一個交流與分享的空間。期待在這裡與你相遇，一起探索科技、體驗生活、夢想旅行！💖

Hank吳的沙龍的其他內容

2025/07/20

深入淺出 RNN：讓機器擁有「記憶」的魔法

在之前的文章中，我們了解到像「詞袋模型」這樣的早期方法，雖然能統計詞彙，但卻像個金魚腦，完全記不住句子的順序。而 RNN（Recurrent Neural Network，循環神經網絡）的誕生，就是為了解決這個「失憶」問題。

2025/07/20

深入淺出 RNN：讓機器擁有「記憶」的魔法

2025/07/20

從「文字接龍」到「情境大師」：深入淺出 NLP 模型的理論與原理

在上一篇跟 AI 聊天的秘密：一篇文搞懂什麼是 NLP 模型中，我們將 NLP 模型比喻為一個勤奮好學的「語言大腦」。今天，我們將更深入地走進這個大腦的內部，用最直觀的方式，理解它從「死記硬背」到「融會貫通」的進化之路。這趟旅程將分為三個階段，對應著 NLP 模型發展的三個重要里程碑：

2025/07/20

從「文字接龍」到「情境大師」：深入淺出 NLP 模型的理論與原理

2025/07/20

跟 AI 聊天的秘密：一篇文章搞懂什麼是 NLP 模型

你是否曾想過： * 為什麼 Siri 和 Google 助理能聽懂我們天馬行空的問題？ * Google 翻譯是怎麼把一整段法文瞬間變成流暢的中文？ * 當你打字時，手機為什麼能猜到你下一個想打的詞？這一切背後的魔法，就來自於我們今天要聊的主角——NLP 模型。

2025/07/20

跟 AI 聊天的秘密：一篇文章搞懂什麼是 NLP 模型

看更多

你可能也想看

方格子 vocus 官方沙龍

線上街訪直擊！雙 11 購物車大公開！

雙11於許多人而言，不只是單純的折扣狂歡，更是行事曆裡預定的，對美好生活的憧憬。錢錢沒有不見，它變成了快樂，跟讓臥房、辦公桌、每天早晨的咖啡香升級的樣子！這次格編突擊辦公室，也邀請 vocus「野格團」創作者分享掀開蝦皮購物車的簾幕，「加入購物車」的瞬間，藏著哪些靈感，或是對美好生活的想像？

#vocusforBusiness#雙11#蝦皮分潤計畫

2025/10/28

方格子 vocus 官方沙龍

線上街訪直擊！雙 11 購物車大公開！

#vocusforBusiness#雙11#蝦皮分潤計畫

2025/10/28

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 129 中說，Bidirectional Encoder Representations from Transformers (BER

#AI#ai#PromptEngineering

2024/08/13

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

#AI#ai#PromptEngineering

2024/08/13

Learn AI 不 BI

AI說書 - 從0開始 - 92

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 87 說：Wang 等人 2019 年的論文，提供了合理答案的選擇 (Choice of Plausible Answers, COP

#AI#ai#PromptEngineering

2024/07/16

Learn AI 不 BI

AI說書 - 從0開始 - 92

#AI#ai#PromptEngineering

2024/07/16

Learn AI 不 BI

AI說書 - 從0開始 - 91

#AI#ai#PromptEngineering

2024/07/15

Learn AI 不 BI

AI說書 - 從0開始 - 91

#AI#ai#PromptEngineering

2024/07/15

Learn AI 不 BI

AI說書 - 從0開始 - 90

#AI#ai#PromptEngineering

2024/07/15

Learn AI 不 BI

AI說書 - 從0開始 - 90

#AI#ai#PromptEngineering

2024/07/15

Learn AI 不 BI

AI說書 - 從0開始 - 86

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明，有一個很重要的結論：最適合您的模型不一定是排行榜上最好的模型，您需要學習 NLP 評

#AI#ai#PromptEngineering

2024/07/13

Learn AI 不 BI

AI說書 - 從0開始 - 86

#AI#ai#PromptEngineering

2024/07/13

Learn AI 不 BI

AI說書 - 從0開始 - 84

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。繼 AI說書 - 從0開始 - 82 與 xxx ，我們談論了衡量 AI 模型的方式，那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時，需要

#AI#ai#PromptEngineering

2024/07/12

Learn AI 不 BI

AI說書 - 從0開始 - 84

#AI#ai#PromptEngineering

2024/07/12

Learn AI 不 BI

AI說書 - 從0開始 - 82

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo

#AI#ai#PromptEngineering

2024/07/10

Learn AI 不 BI

AI說書 - 從0開始 - 82

#AI#ai#PromptEngineering

2024/07/10

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News