深入淺出 RNN:讓機器擁有「記憶」的魔法

更新於 發佈於 閱讀時間約 6 分鐘

在之前的文章中,了解到像「詞袋模型」這樣的早期方法,雖然能統計詞彙,但卻像個金魚腦,完全記不住句子的順序。而 RNN(Recurrent Neural Network,循環神經網絡)的誕生,就是為了解決這個「失憶」問題。

RNN 的核心思想非常直觀,它模仿了人類閱讀時的思考方式:我們在理解當前這個字時,腦中還保留著前面幾個字的印象。

RNN 的核心原理:一個帶有「記憶」的循環

想像一下,你正在逐字閱讀這句話:「我今天不想上班,因為...」

當你讀到「因為」時,你的大腦會自然地預期後面將會出現一個「原因」。這是因為你的大腦還「記得」前面出現了「不想上班」這個狀況。

RNN 就是在電腦中建立了一個類似的機制。它的結構很特別,包含一個「循環 (Loop)」。這個循環允許資訊在網絡中持續存在,形成一種「記憶」。

我們把 RNN 的運作過程拆解成幾個步驟來看:

* 輸入第一個字:

* 模型讀取句子的第一個字,例如「我」。

* 它會對這個字進行處理,產生一個「輸出 (Output)」。

* 同時,它會生成一個「隱藏狀態 (Hidden State)」,你可以把它想像成是模型對「我」這個字的「閱讀心得」或「短期記憶」。

* 輸入第二個字(神奇的循環開始了!):

* 模型讀取第二個字,例如「今天」。

* 這次,它不僅僅考慮「今天」這個字本身,還會把上一步產生的**「隱藏狀態」(關於「我」的記憶)**一起納入計算。

* 它結合了「新輸入(今天)」和「舊記憶(我)」,產生一個新的「輸出」,並更新自己的「隱藏狀態」,這個新的隱藏狀態現在包含了對「我 今天」的理解。

* 不斷重複:

* 這個過程會像傳送帶一樣不斷進行下去。每讀一個新的字,模型都會結合**「當前輸入」和「上一刻的記憶」**,然後生成新的輸出和新的記憶,再把這份新記憶傳遞給下一刻的自己。

(圖說:RNN 的核心在於這個循環結構。在每個時間點 (t),模型都會接收當前的輸入 (x_t) 和前一個時間點的隱藏狀態 (h_{t-1}),然後產生輸出 (o_t) 和新的隱藏狀態 (h_t)。)

簡單來說,RNN 的公式可以理解為:

當前的記憶 = f(上一刻的記憶, 當前的輸入)

這個簡單的循環機制,賦予了 RNN 理解序列資訊的超能力。它不再是孤立地看待每個單字,而是將它們串聯成一個有意義的整體。

YouTube Music 範例:RNN 如何成為你的貼心 DJ?

好了,理論有點枯燥,我們來看看 RNN 在實際應用中是如何大顯身手的。假設 YouTube Music 想用 RNN 來為你推薦下一首可能喜歡的歌曲。

這個任務的本質,就是一個序列預測問題:根據你過去的播放序列,來預測你下一首想聽什麼。

場景:你剛剛在 YouTube Music 上聽了這三首歌:

* 周杰倫 - 《晴天》 (一首抒情流行歌)

* 五月天 - 《溫柔》 (一首抒情搖滾)

* 陳綺貞 - 《旅行的意義》 (一首民謠)

現在,YouTube Music 的 RNN 模型要開始工作了,它會如何為你推薦第四首歌?

RNN 的思考過程:

* 第一步:讀取《晴天》

* 輸入:歌曲《晴天》的特徵向量(這個向量可能包含了曲風、節奏、歌手、年代等資訊)。

* 處理:RNN 處理這個輸入。

* 產生記憶 (隱藏狀態):模型生成一個記憶,可以粗略地理解為:「嗯,用戶聽了一首華語抒情流行歌。」

* 第二步:讀取《溫柔》

* 輸入:歌曲《溫柔》的特徵向量。

* 結合記憶處理:RNN 結合了「新輸入(《溫柔》)」和「舊記憶(聽了抒情流行歌)」。

* 更新記憶:模型更新了它的記憶,現在可能變成了:「哦,用戶聽完抒情流行,又聽了一首抒情搖滾。看來他今天想聽旋律優美、節奏偏慢的中文歌。」

* 第三步:讀取《旅行的意義》

* 輸入:歌曲《旅行的意義》的特徵向量。

* 再次結合記憶處理:RNN 結合了「新輸入(《旅行的意義》)」和「舊記憶(想聽旋律優美的慢歌)」。

* 最終記憶:模型再次更新記憶,結論可能是:「用戶連續聽了抒情流行、抒情搖滾和民謠。他的偏好非常明確,就是帶點文青感的、安靜的、以吉他或鋼琴為主的華語歌曲。」

* 第四步:做出預測!

* 基於這份最終形成的「記憶」,RNN 會在龐大的曲庫中進行搜索,尋找下一首歌。

* 它可能會排除掉重金屬、嘻哈、電音舞曲。

* 它會高度優先推薦像 林宥嘉的《說謊》、蘇打綠的《小情歌》 或是 張懸的《寶貝》 這類風格相似的歌曲。

這就是 RNN 的魔力! 它通過記住你的播放「序列」,而不是僅僅看你聽過的單一歌曲,從而更精準地捕捉到你當下的心境和音樂品味。

RNN 的局限性

當然,標準的 RNN 也不是完美的。它最大的問題是「短期記憶」。如果你的播放列表非常長,聽了幾十首歌之後,它可能早就忘了你一開始聽的是什麼了。這就像我們很難記住一篇長文開頭的每一個細節一樣。

為了解決這個問題,更強大的升級版模型,如我們之前提過的 LSTM (長短期記憶網絡) 和 GRU 就應運而生了。它們通過更精巧的「閘門」設計,讓模型擁有了更可靠的長期記憶能力,能夠在更長的序列中記住關鍵資訊。

希望這個深入的講解和 YouTube Music 的例子,能讓你對 RNN 的運作原理有一個清晰而生動的理解。

留言
avatar-img
留言分享你的想法!
avatar-img
Hank吳的沙龍
0會員
47內容數
這不僅僅是一個 Blog,更是一個交流與分享的空間。 期待在這裡與你相遇,一起探索科技、體驗生活、夢想旅行!💖
Hank吳的沙龍的其他內容
2025/07/20
在上一篇 跟 AI 聊天的秘密:一篇文搞懂什麼是 NLP 模型 中,我們將 NLP 模型比喻為一個勤奮好學的「語言大腦」。今天,我們將更深入地走進這個大腦的內部,用最直觀的方式,理解它從「死記硬背」到「融會貫通」的進化之路。 這趟旅程將分為三個階段,對應著 NLP 模型發展的三個重要里程碑:
2025/07/20
在上一篇 跟 AI 聊天的秘密:一篇文搞懂什麼是 NLP 模型 中,我們將 NLP 模型比喻為一個勤奮好學的「語言大腦」。今天,我們將更深入地走進這個大腦的內部,用最直觀的方式,理解它從「死記硬背」到「融會貫通」的進化之路。 這趟旅程將分為三個階段,對應著 NLP 模型發展的三個重要里程碑:
2025/07/20
你是否曾想過: * 為什麼 Siri 和 Google 助理能聽懂我們天馬行空的問題? * Google 翻譯是怎麼把一整段法文瞬間變成流暢的中文? * 當你打字時,手機為什麼能猜到你下一個想打的詞? 這一切背後的魔法,就來自於我們今天要聊的主角——NLP 模型。
2025/07/20
你是否曾想過: * 為什麼 Siri 和 Google 助理能聽懂我們天馬行空的問題? * Google 翻譯是怎麼把一整段法文瞬間變成流暢的中文? * 當你打字時,手機為什麼能猜到你下一個想打的詞? 這一切背後的魔法,就來自於我們今天要聊的主角——NLP 模型。
2025/07/18
YOLO物件偵測技術因其速度快、精度高的特性,廣泛應用於自動駕駛、智慧零售、工業生產、安全監控、體育賽事分析及農業等領域,提升效率並改善決策。
Thumbnail
2025/07/18
YOLO物件偵測技術因其速度快、精度高的特性,廣泛應用於自動駕駛、智慧零售、工業生產、安全監控、體育賽事分析及農業等領域,提升效率並改善決策。
Thumbnail
看更多
你可能也想看
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
你從自動回覆的留言中,串接到了這裡,這是CHATGPT所設定好的記憶技巧,當然有經過我的教導,有我的內容,但也不見得都會全對。就是一個思考的指引,你可以參考看看。 當然他的內容 不是只有勞動法令可以運用,至少會給你三種記憶技巧,你再看一下有沒有適合你的方法。※不過 請注意 其他法條的引用要注意一下
Thumbnail
你從自動回覆的留言中,串接到了這裡,這是CHATGPT所設定好的記憶技巧,當然有經過我的教導,有我的內容,但也不見得都會全對。就是一個思考的指引,你可以參考看看。 當然他的內容 不是只有勞動法令可以運用,至少會給你三種記憶技巧,你再看一下有沒有適合你的方法。※不過 請注意 其他法條的引用要注意一下
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
自動化思考(Automatic Thinking)是心理學中的一個概念,它指的是人們在日常生活中進行的快速、無意識和自動的「思路-反應」捷徑。
Thumbnail
自動化思考(Automatic Thinking)是心理學中的一個概念,它指的是人們在日常生活中進行的快速、無意識和自動的「思路-反應」捷徑。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 首先先展示 Transformer 的架構圖: 可以看到架構中不再出現 RNN 、 LSTM 、 CNN 等物件,因為 Recurrence 已被摒棄。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 首先先展示 Transformer 的架構圖: 可以看到架構中不再出現 RNN 、 LSTM 、 CNN 等物件,因為 Recurrence 已被摒棄。
Thumbnail
感知器是一種基本的神經網路模型,用於二分類問題。它模擬了人腦神經元的工作原理,通過調整權重和偏差值來達到預測和分類的目的。 感知器流程 輸入 資料的輸入: 輸入層接受資料的輸入,每個輸入對應一個特徵,還有一個固定的偏差神經元。 資料經過每個神經元時,會乘上相應的
Thumbnail
感知器是一種基本的神經網路模型,用於二分類問題。它模擬了人腦神經元的工作原理,通過調整權重和偏差值來達到預測和分類的目的。 感知器流程 輸入 資料的輸入: 輸入層接受資料的輸入,每個輸入對應一個特徵,還有一個固定的偏差神經元。 資料經過每個神經元時,會乘上相應的
Thumbnail
本篇文章分享了對創意和靈感來源的深入思考,以及如何將其轉化為實際的成果或解決方案的過程。透過學習、資料收集、練習、創新等方法,提出了將創意落實的思路和技巧。同時介紹了AI在外顯知識的自動化應用,以及對其潛在發展方向的討論。最後探討了傳統機器學習技術在模擬中的應用案例和對AI世界的影響。
Thumbnail
本篇文章分享了對創意和靈感來源的深入思考,以及如何將其轉化為實際的成果或解決方案的過程。透過學習、資料收集、練習、創新等方法,提出了將創意落實的思路和技巧。同時介紹了AI在外顯知識的自動化應用,以及對其潛在發展方向的討論。最後探討了傳統機器學習技術在模擬中的應用案例和對AI世界的影響。
Thumbnail
「間隔反覆(Spaced Repetition)」,搭配「主動回憶(Active Recall)」的學習策略,在更短的時間內延長記憶力的續航力。
Thumbnail
「間隔反覆(Spaced Repetition)」,搭配「主動回憶(Active Recall)」的學習策略,在更短的時間內延長記憶力的續航力。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News