C015|編碼器-解碼器循環神經網路如何影響注意力機制的設計?

更新於 發佈於 閱讀時間約 3 分鐘

「注意力機制 Attention Mechanisms」,


是學習「自然語言處理 Natural Language Processing NLP」以及


「大語言模型 Large Language Model LLM」技術細節必備的概念。


而根據Sebastian Raschka [1] 的著書"Build a Large Language Model (From Scratch)"[2],


常見的注意力機制有四種:


01 簡化自注意力 Simplified Self-Attention


02 自注意力 Self-Attention


03 因果注意力 Causal Attention


04 多頭注意力 Multi-Head Attention


這樣一想,或許訓練特定領域的語言模型,


可以直接用具體表格重新預訓練,然後再看作任務的效果如何。


如果可以補缺失值補得很好,那一切其實都很好。


那麼,當我們在對「長序列 Long Sequences」建模時,


如果不使用自注意力機制,會發生什麼問題呢? [3]


注意力機制的設計,


其實起源於「編碼器-解碼器循環神經網路 Encoder-Decoder Recurrent Neural Networks」[4]。


而編碼器-解碼器循環神經網路起源於「機器翻譯 Machine Translation」[5]。


你有想過機器是怎麼做翻譯的嗎?


機器其實不是像人類這樣一的單字對應一個單字去翻譯,


而是使用「編碼器 Encoder」與「解碼器 Decoder」來做語言之間的翻譯。


其中編碼器的任務,是「閱讀 Read」與「處理 Process」完整的文本,


而解碼器的任務,則是「產生 Produced」翻譯過後的文本。


而做機器翻譯最受歡迎的框架,就是「循環神經網路 Recurrent Neural Networks」[6]。


而編碼器-解碼器循環神經網路具體的工作方式,


首先編碼器會把輸入的文本,照「順序」去處理,接著更新其自身的「隱層狀態 Hidden State」。


「隱層狀態 Hidden State」就是「隱層 Hidden Layer」的「內部值 Internal Value」,


你也可以將「隱層狀態 Hidden State」理解成神經網路的「記憶細胞 Memory Cell」。


而解碼器,則是要將「最終隱層狀態 Final Hidden State」轉換為翻譯後的句子。


然而,循環神經網路最大的問題,就是「想不起來早期的記憶細胞」,


而更傾向於從「近期的記憶細胞」來翻譯句子。


這樣造成的主要問題是「脈絡遺失 Loss of Context」,


對於那種複雜句子就沒輒了。


而循環神經網路的這個弱點,也推動了注意力機制的設計。


Reference

[1] https://sebastianraschka.com/

[2] Figure 3.2, https://www.manning.com/books/build-a-large-language-model-from-scratch

[3] Section 3.1, https://www.manning.com/books/build-a-large-language-model-from-scratch

[4] https://d2l.ai/chapter_recurrent-modern/encoder-decoder.html

[5] https://d2l.ai/chapter_recurrent-modern/machine-translation-and-dataset.html

[6] https://en.wikipedia.org/wiki/Recurrent_neural_network

avatar-img
532會員
1.8K內容數
Outline as Content
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
王啟樺的沙龍 的其他內容
1. 維持良好的體能: - 你的健康狀況、飲食選擇、運動習慣和睡眠品質都會影響你的體能。體能是精力管理的基礎,張遇升老師在他的課堂中強調,體能是金字塔的底層,應該被優先管理。研究所學生常常面臨繁重的學業壓力,維持良好的體能能夠幫助你更好地應對挑戰。我目前飲食選擇和睡眠品質都不錯,但運動習慣還需要加
如此,我從寫作找到了意義,而我從每天持續輸出,找到了持續學習,思考,帶來的深度體驗,而持續寫作又可以培養自己的品味,累積自己的文化資本,就不會被一些很淺薄的分享者的內容吸引注意力,而是可以用更內行的方式,判斷哪些分享者的內容是真的值得花時間的。
今天繼續聊聊由Yasin Abbasi-Yadkori [1] 於2011年發表的文章, 《Improved Algorithms for Linear Stochastic Bandits》[2]。 在15頁的順間後悔分析中, 我們在B001講到上界已經替換為 「強盜算法行
1. 設立過於模糊的目標: - 許多大學生在設定目標時,並沒有清晰具體的認識,這會導致後續行動缺乏方向。例如,一些學生可能只知道自己想在某個領域有所成就,但並不明確自己想要達到的具體成果,結果在研究過程中迷失方向。 2. 制定過於僵化的計畫: - 制定計畫是重要的,但計畫過於詳
記得那時候是高中三年級,當時也是在日本書上看到這個做法。 那時候我是徒手把書撕破, 就發現書脊那邊除了有熱融膠,還有一綑一綑的紙張。 而透過把書撕破來閱讀,的確可以把書的Scope 縮小, 更好玩的是,拆亂的書頁, 你可以怎麼用自己的邏輯再重新順成一個邏輯, 那真的是一個鍛鍊自己組織內容很好的練習。
1. 誤以為每個人都有自己的意見: - 很多人實際上只是隨波逐流,並沒有真正的獨立思考。這些人常常在看到某些意見時,會說「我也是這麼想的」,但實際上他們並沒有深入思考過這個問題。 2. 站隊形成優越感: - 有些人會因為站在某個特定意見的隊伍中而產生優越感,覺得自己比別人更有見地。
1. 維持良好的體能: - 你的健康狀況、飲食選擇、運動習慣和睡眠品質都會影響你的體能。體能是精力管理的基礎,張遇升老師在他的課堂中強調,體能是金字塔的底層,應該被優先管理。研究所學生常常面臨繁重的學業壓力,維持良好的體能能夠幫助你更好地應對挑戰。我目前飲食選擇和睡眠品質都不錯,但運動習慣還需要加
如此,我從寫作找到了意義,而我從每天持續輸出,找到了持續學習,思考,帶來的深度體驗,而持續寫作又可以培養自己的品味,累積自己的文化資本,就不會被一些很淺薄的分享者的內容吸引注意力,而是可以用更內行的方式,判斷哪些分享者的內容是真的值得花時間的。
今天繼續聊聊由Yasin Abbasi-Yadkori [1] 於2011年發表的文章, 《Improved Algorithms for Linear Stochastic Bandits》[2]。 在15頁的順間後悔分析中, 我們在B001講到上界已經替換為 「強盜算法行
1. 設立過於模糊的目標: - 許多大學生在設定目標時,並沒有清晰具體的認識,這會導致後續行動缺乏方向。例如,一些學生可能只知道自己想在某個領域有所成就,但並不明確自己想要達到的具體成果,結果在研究過程中迷失方向。 2. 制定過於僵化的計畫: - 制定計畫是重要的,但計畫過於詳
記得那時候是高中三年級,當時也是在日本書上看到這個做法。 那時候我是徒手把書撕破, 就發現書脊那邊除了有熱融膠,還有一綑一綑的紙張。 而透過把書撕破來閱讀,的確可以把書的Scope 縮小, 更好玩的是,拆亂的書頁, 你可以怎麼用自己的邏輯再重新順成一個邏輯, 那真的是一個鍛鍊自己組織內容很好的練習。
1. 誤以為每個人都有自己的意見: - 很多人實際上只是隨波逐流,並沒有真正的獨立思考。這些人常常在看到某些意見時,會說「我也是這麼想的」,但實際上他們並沒有深入思考過這個問題。 2. 站隊形成優越感: - 有些人會因為站在某個特定意見的隊伍中而產生優越感,覺得自己比別人更有見地。
你可能也想看
Google News 追蹤
Thumbnail
2025 年,從分享精彩的 #Myvocus2024 年度回顧開始! #Myvocus2024 年度回顧通知已送達 vocus 的 2024 有超過 12 萬筆訂單、35 萬則以上的內容、16 萬以上的新會員、4 千+ 筆數位商品訂單,5 萬 + 則貼文! 曬曬你的 2024 vocus 吧!
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
人工智慧是什麼? 人工智慧(Artificial Intelligence, AI) 簡單來說,就是讓機器模仿人類的思考、學習和決策的能力。它就像是一個聰明的電腦程序,可以執行許多原本需要人類智慧才能完成的工作,例如: 語音辨識: 讓電腦聽懂人類的語言,像是 Siri、Google As
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在第四章中,將會談論以下主題: 定義機器翻譯 人類轉導與翻譯 機器轉導和翻譯 評估機器翻譯 預處理 Workshop on Machine Translati
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 既然要談論 Transformer 的 Attention 機制,我們必須要談論以下主題: Transformer 架構 自注意力機制 編碼與解碼 Embedd
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - 從0開始 - 4中說Transformer的精髓就是考慮「字與字之間的配對關係」,我們稱其為Attention Layer,再搭配我們在機器學習
Thumbnail
感知器是一種基本的神經網路模型,用於二分類問題。它模擬了人腦神經元的工作原理,通過調整權重和偏差值來達到預測和分類的目的。 感知器流程 輸入 資料的輸入: 輸入層接受資料的輸入,每個輸入對應一個特徵,還有一個固定的偏差神經元。 資料經過每個神經元時,會乘上相應的
在人工智能的發展歷程中,早期的研究主要側重於將解決問題的規則輸入計算機,試圖通過啟蒙運動理性的思路模擬人類的智能行為。然而,這條路逐漸變得艱難,因為規則過於繁多,無法應對複雜的情境和語境。在這個背景下,一些科學家轉向了神經網絡算法,試圖模擬人腦的感知能力。
Thumbnail
本文用輕鬆對話的方式,介紹大腦如何接收和處理新訊息,以及這對學習的意義。 認識你的大腦如何處理訊息 『大家好,今天我們要一起來探索一個非常有趣的主題:大腦如何處理訊息。你知道我們的大腦有多厲害嗎?』
機器學習是什麼? 簡單來說,機器學習就是訓練機器尋找Function的一段過程,而這個Function可以幫助我們解決我們遇到的問題,或是幫助我們
Thumbnail
2025 年,從分享精彩的 #Myvocus2024 年度回顧開始! #Myvocus2024 年度回顧通知已送達 vocus 的 2024 有超過 12 萬筆訂單、35 萬則以上的內容、16 萬以上的新會員、4 千+ 筆數位商品訂單,5 萬 + 則貼文! 曬曬你的 2024 vocus 吧!
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
人工智慧是什麼? 人工智慧(Artificial Intelligence, AI) 簡單來說,就是讓機器模仿人類的思考、學習和決策的能力。它就像是一個聰明的電腦程序,可以執行許多原本需要人類智慧才能完成的工作,例如: 語音辨識: 讓電腦聽懂人類的語言,像是 Siri、Google As
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在第四章中,將會談論以下主題: 定義機器翻譯 人類轉導與翻譯 機器轉導和翻譯 評估機器翻譯 預處理 Workshop on Machine Translati
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 既然要談論 Transformer 的 Attention 機制,我們必須要談論以下主題: Transformer 架構 自注意力機制 編碼與解碼 Embedd
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - 從0開始 - 4中說Transformer的精髓就是考慮「字與字之間的配對關係」,我們稱其為Attention Layer,再搭配我們在機器學習
Thumbnail
感知器是一種基本的神經網路模型,用於二分類問題。它模擬了人腦神經元的工作原理,通過調整權重和偏差值來達到預測和分類的目的。 感知器流程 輸入 資料的輸入: 輸入層接受資料的輸入,每個輸入對應一個特徵,還有一個固定的偏差神經元。 資料經過每個神經元時,會乘上相應的
在人工智能的發展歷程中,早期的研究主要側重於將解決問題的規則輸入計算機,試圖通過啟蒙運動理性的思路模擬人類的智能行為。然而,這條路逐漸變得艱難,因為規則過於繁多,無法應對複雜的情境和語境。在這個背景下,一些科學家轉向了神經網絡算法,試圖模擬人腦的感知能力。
Thumbnail
本文用輕鬆對話的方式,介紹大腦如何接收和處理新訊息,以及這對學習的意義。 認識你的大腦如何處理訊息 『大家好,今天我們要一起來探索一個非常有趣的主題:大腦如何處理訊息。你知道我們的大腦有多厲害嗎?』
機器學習是什麼? 簡單來說,機器學習就是訓練機器尋找Function的一段過程,而這個Function可以幫助我們解決我們遇到的問題,或是幫助我們