深入淺出 LSTM:如何打造一個擁有「超級記憶力」的大腦

更新 發佈閱讀 7 分鐘

我們來深入淺出地拆解一下比 RNN 更強大的 LSTM 模型。

在上一篇文章中,我們認識了 RNN,它像一個有短期記憶的學徒,能夠記住緊鄰的上下文。但如果句子很長,資訊很複雜,RNN 就會像金魚腦一樣,忘記開頭的關鍵資訊。這就是所謂的「長期依賴問題」。

為了解決這個難題,一種更精密的模型——LSTM (Long Short-Term Memory,長短期記憶網絡)——應運而生。

你可以把 LSTM 看作是 RNN 的「Pro Max 升級版」。它不僅有記憶,更有一套管理記憶的智慧系統,懂得什麼該記、什麼該忘,以及什麼時候該用。

LSTM 的核心原理:高速公路與智慧閘門

LSTM 的設計核心在於引入了一個全新的概念:「細胞狀態 (Cell State)」。

把它想像成一條貫穿整個模型的「記憶高速公路」。這條高速公路非常特別,資訊可以在上面一路暢行,幾乎沒有阻礙,從而確保了長期記憶的穩定傳遞。

但是,只有一條高速公路還不夠,如果什麼資訊都往上丟,很快就會造成交通堵塞。因此,LSTM 精巧地設計了三個「智慧閘門 (Gates)」來擔任交通管制員,負責管理這條高速公路上的資訊流。

這三個閘門,就是 LSTM 的精髓所在。

(圖說:LSTM 的核心結構,上方是「記憶高速公路」(Cell State),下方是三個控制資訊進出的「閘門」)

三大智慧閘門:記憶的守門員

這三個閘門各自掌管著一項關鍵任務:遺忘、輸入、輸出。它們會根據當前的輸入和過去的記憶,來決定開門或關門(在數學上,這通過一個 0 到 1 之間的數值來實現,0 代表「完全關閉」,1 代表「完全打開」)。

1. 遺忘門 (Forget Gate):決定該丟掉什麼舊記憶

任務:檢查過去的記憶,決定哪些部分已經不重要了,應該被「遺忘」。

場景:假設模型正在分析一篇新聞報導。

* 它讀到第一句:「今天台北的天氣非常晴朗...」

* 此時,「記憶高速公路」上記錄了「地點:台北」、「天氣:晴朗」。

* 接著讀到第二句:「...報導的焦點轉向了高雄,當地市長發表了新的城市建設計劃。」

* 當模型讀到「高雄」時,遺忘門就會被觸發。它會判斷:「接下來的內容和『台北』、『天氣』無關了。」

* 於是,遺忘門會打開,將關於「台北天氣」的舊記憶從高速公路上清除掉,為新的、更重要的資訊騰出空間。

(圖說:遺忘門決定從 Cell State 中丟棄哪些資訊)

2. 輸入門 (Input Gate):決定要記住什麼新資訊

任務:審核當前的新資訊,判斷哪些部分是重要的,值得被寫入「記憶高速公路」。

場景:繼續上面的新聞報導。

* 模型讀到:「...高雄市長發表了新的城市建設計劃,其中最引人注目的是『亞洲新灣區 2.0』項目。」

* 輸入門會開始工作。它會分析這句話,並認為「高雄市長」、「城市建設計劃」、「亞洲新灣區 2.0」是關鍵資訊。

* 於是,輸入門會打開,將這些篩選過的新資訊,更新到「記憶高速公路」上。

(圖說:輸入門決定讓哪些新資訊進入 Cell State)

3. 輸出門 (Output Gate):決定此刻該輸出什麼

任務:根據當前的上下文,從「記憶高速公路」上提取出最相關的記憶,作為當前的輸出。

場景:文章結尾提出了一個問題:「那麼,對於這個位於南台灣的大型項目,中央政府的態度是什麼?」

* 模型需要回答這個問題(或者說,生成下一句話)。

* 輸出門會被觸發。它會分析這個問題,知道重點是「南台灣的大型項目」。

* 然後,它會回頭看「記憶高速公路」,發現上面記錄著「高雄市長」、「城市建設計劃」、「亞洲新灣區 2.0」這些高度相關的記憶。

* 輸出門便會將這些資訊提取出來,作為當前的輸出,從而可能生成一句話:「中央政府對『亞洲新灣區 2.0』計劃表示樂觀其成...」

* 它不會輸出無關的舊記憶(比如已經被遺忘的「台北天氣」)。

(圖說:輸出門決定從 Cell State 中輸出哪些資訊)

一個完整的範例:分析電商評論

假設你是一家手機品牌的經理,你想用 LSTM 模型來自動分析用戶評論是「正面」還是「負面」。

評論:「這支手機的設計和螢幕真的很棒,我非常喜歡!不過,電池續航力在我看來是個致命的缺點。」

LSTM 的分析流程:

* 讀到「設計和螢幕真的很棒」:

* 輸入門打開,將「設計棒」、「螢幕棒」等正面資訊寫入「記憶高速公路」。

* 遺忘門保持關閉,因為還沒有需要忘記的舊資訊。

* 讀到「我非常喜歡」:

* 輸入門繼續強化正面情緒的記憶。

* 此時「記憶高速公路」上的主要基調是非常正面。

* 讀到「不過」:

* 這是一個關鍵轉折詞!

* 遺忘門可能會被觸發,它意識到接下來的內容可能與前面的讚美無關,於是稍微調低了前面正面資訊的權重,準備迎接新資訊。

* 輸入門也準備好記錄新的重點。

* 讀到「電池續航力...是個致命的缺點」:

* 輸入門捕捉到「電池續航力差」、「致命缺點」這些強烈的負面資訊,並將它們寫入「記憶高速公路」。

* 遺忘門可能在此時會進一步清除或壓抑之前「設計很棒」的記憶,因為「致命缺點」這個詞的權重可能更高。

* 分析結束,做出最終判斷:

* 輸出門檢視整條「記憶高速公路」。雖然前面有正面資訊,但最後被強烈的負面資訊覆蓋和主導。

* 模型最終的輸出結論:負面評論。

通過這套精巧的閘門系統,LSTM 不僅能理解句子的表面意思,更能捕捉到情緒的轉折、上下文的依賴關係,即使是在很長的段落中也能游刃有餘。正是這種強大的長期記憶能力,讓它在機器翻譯、文章摘要、情感分析等複雜任務上取得了巨大的成功。

留言
avatar-img
留言分享你的想法!
avatar-img
Hank吳的沙龍
0會員
83內容數
這不僅僅是一個 Blog,更是一個交流與分享的空間。 期待在這裡與你相遇,一起探索科技、體驗生活、夢想旅行!💖
Hank吳的沙龍的其他內容
2025/07/20
在之前的文章中,我們了解到像「詞袋模型」這樣的早期方法,雖然能統計詞彙,但卻像個金魚腦,完全記不住句子的順序。而 RNN(Recurrent Neural Network,循環神經網絡)的誕生,就是為了解決這個「失憶」問題。
2025/07/20
在之前的文章中,我們了解到像「詞袋模型」這樣的早期方法,雖然能統計詞彙,但卻像個金魚腦,完全記不住句子的順序。而 RNN(Recurrent Neural Network,循環神經網絡)的誕生,就是為了解決這個「失憶」問題。
2025/07/20
在上一篇 跟 AI 聊天的秘密:一篇文搞懂什麼是 NLP 模型 中,我們將 NLP 模型比喻為一個勤奮好學的「語言大腦」。今天,我們將更深入地走進這個大腦的內部,用最直觀的方式,理解它從「死記硬背」到「融會貫通」的進化之路。 這趟旅程將分為三個階段,對應著 NLP 模型發展的三個重要里程碑:
2025/07/20
在上一篇 跟 AI 聊天的秘密:一篇文搞懂什麼是 NLP 模型 中,我們將 NLP 模型比喻為一個勤奮好學的「語言大腦」。今天,我們將更深入地走進這個大腦的內部,用最直觀的方式,理解它從「死記硬背」到「融會貫通」的進化之路。 這趟旅程將分為三個階段,對應著 NLP 模型發展的三個重要里程碑:
2025/07/20
你是否曾想過: * 為什麼 Siri 和 Google 助理能聽懂我們天馬行空的問題? * Google 翻譯是怎麼把一整段法文瞬間變成流暢的中文? * 當你打字時,手機為什麼能猜到你下一個想打的詞? 這一切背後的魔法,就來自於我們今天要聊的主角——NLP 模型。
2025/07/20
你是否曾想過: * 為什麼 Siri 和 Google 助理能聽懂我們天馬行空的問題? * Google 翻譯是怎麼把一整段法文瞬間變成流暢的中文? * 當你打字時,手機為什麼能猜到你下一個想打的詞? 這一切背後的魔法,就來自於我們今天要聊的主角——NLP 模型。
看更多
你可能也想看
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News