C015|編碼器-解碼器循環神經網路如何影響注意力機制的設計?

閱讀時間約 3 分鐘

「注意力機制 Attention Mechanisms」,


是學習「自然語言處理 Natural Language Processing NLP」以及


「大語言模型 Large Language Model LLM」技術細節必備的概念。


而根據Sebastian Raschka [1] 的著書"Build a Large Language Model (From Scratch)"[2],


常見的注意力機制有四種:


01 簡化自注意力 Simplified Self-Attention


02 自注意力 Self-Attention


03 因果注意力 Causal Attention


04 多頭注意力 Multi-Head Attention


這樣一想,或許訓練特定領域的語言模型,


可以直接用具體表格重新預訓練,然後再看作任務的效果如何。


如果可以補缺失值補得很好,那一切其實都很好。


那麼,當我們在對「長序列 Long Sequences」建模時,


如果不使用自注意力機制,會發生什麼問題呢? [3]


注意力機制的設計,


其實起源於「編碼器-解碼器循環神經網路 Encoder-Decoder Recurrent Neural Networks」[4]。


而編碼器-解碼器循環神經網路起源於「機器翻譯 Machine Translation」[5]。


你有想過機器是怎麼做翻譯的嗎?


機器其實不是像人類這樣一的單字對應一個單字去翻譯,


而是使用「編碼器 Encoder」與「解碼器 Decoder」來做語言之間的翻譯。


其中編碼器的任務,是「閱讀 Read」與「處理 Process」完整的文本,


而解碼器的任務,則是「產生 Produced」翻譯過後的文本。


而做機器翻譯最受歡迎的框架,就是「循環神經網路 Recurrent Neural Networks」[6]。


而編碼器-解碼器循環神經網路具體的工作方式,


首先編碼器會把輸入的文本,照「順序」去處理,接著更新其自身的「隱層狀態 Hidden State」。


「隱層狀態 Hidden State」就是「隱層 Hidden Layer」的「內部值 Internal Value」,


你也可以將「隱層狀態 Hidden State」理解成神經網路的「記憶細胞 Memory Cell」。


而解碼器,則是要將「最終隱層狀態 Final Hidden State」轉換為翻譯後的句子。


然而,循環神經網路最大的問題,就是「想不起來早期的記憶細胞」,


而更傾向於從「近期的記憶細胞」來翻譯句子。


這樣造成的主要問題是「脈絡遺失 Loss of Context」,


對於那種複雜句子就沒輒了。


而循環神經網路的這個弱點,也推動了注意力機制的設計。


Reference

[1] https://sebastianraschka.com/

[2] Figure 3.2, https://www.manning.com/books/build-a-large-language-model-from-scratch

[3] Section 3.1, https://www.manning.com/books/build-a-large-language-model-from-scratch

[4] https://d2l.ai/chapter_recurrent-modern/encoder-decoder.html

[5] https://d2l.ai/chapter_recurrent-modern/machine-translation-and-dataset.html

[6] https://en.wikipedia.org/wiki/Recurrent_neural_network

366會員
1.1K內容數
Outline as Content
留言0
查看全部
發表第一個留言支持創作者!
王啟樺的沙龍 的其他內容
1. 維持良好的體能: - 你的健康狀況、飲食選擇、運動習慣和睡眠品質都會影響你的體能。體能是精力管理的基礎,張遇升老師在他的課堂中強調,體能是金字塔的底層,應該被優先管理。研究所學生常常面臨繁重的學業壓力,維持良好的體能能夠幫助你更好地應對挑戰。我目前飲食選擇和睡眠品質都不錯,但運動習慣還需要加
如此,我從寫作找到了意義,而我從每天持續輸出,找到了持續學習,思考,帶來的深度體驗,而持續寫作又可以培養自己的品味,累積自己的文化資本,就不會被一些很淺薄的分享者的內容吸引注意力,而是可以用更內行的方式,判斷哪些分享者的內容是真的值得花時間的。
今天繼續聊聊由Yasin Abbasi-Yadkori [1] 於2011年發表的文章, 《Improved Algorithms for Linear Stochastic Bandits》[2]。 在15頁的順間後悔分析中, 我們在B001講到上界已經替換為 「強盜算法行
1. 設立過於模糊的目標: - 許多大學生在設定目標時,並沒有清晰具體的認識,這會導致後續行動缺乏方向。例如,一些學生可能只知道自己想在某個領域有所成就,但並不明確自己想要達到的具體成果,結果在研究過程中迷失方向。 2. 制定過於僵化的計畫: - 制定計畫是重要的,但計畫過於詳
記得那時候是高中三年級,當時也是在日本書上看到這個做法。 那時候我是徒手把書撕破, 就發現書脊那邊除了有熱融膠,還有一綑一綑的紙張。 而透過把書撕破來閱讀,的確可以把書的Scope 縮小, 更好玩的是,拆亂的書頁, 你可以怎麼用自己的邏輯再重新順成一個邏輯, 那真的是一個鍛鍊自己組織內容很好的練習。
1. 誤以為每個人都有自己的意見: - 很多人實際上只是隨波逐流,並沒有真正的獨立思考。這些人常常在看到某些意見時,會說「我也是這麼想的」,但實際上他們並沒有深入思考過這個問題。 2. 站隊形成優越感: - 有些人會因為站在某個特定意見的隊伍中而產生優越感,覺得自己比別人更有見地。
1. 維持良好的體能: - 你的健康狀況、飲食選擇、運動習慣和睡眠品質都會影響你的體能。體能是精力管理的基礎,張遇升老師在他的課堂中強調,體能是金字塔的底層,應該被優先管理。研究所學生常常面臨繁重的學業壓力,維持良好的體能能夠幫助你更好地應對挑戰。我目前飲食選擇和睡眠品質都不錯,但運動習慣還需要加
如此,我從寫作找到了意義,而我從每天持續輸出,找到了持續學習,思考,帶來的深度體驗,而持續寫作又可以培養自己的品味,累積自己的文化資本,就不會被一些很淺薄的分享者的內容吸引注意力,而是可以用更內行的方式,判斷哪些分享者的內容是真的值得花時間的。
今天繼續聊聊由Yasin Abbasi-Yadkori [1] 於2011年發表的文章, 《Improved Algorithms for Linear Stochastic Bandits》[2]。 在15頁的順間後悔分析中, 我們在B001講到上界已經替換為 「強盜算法行
1. 設立過於模糊的目標: - 許多大學生在設定目標時,並沒有清晰具體的認識,這會導致後續行動缺乏方向。例如,一些學生可能只知道自己想在某個領域有所成就,但並不明確自己想要達到的具體成果,結果在研究過程中迷失方向。 2. 制定過於僵化的計畫: - 制定計畫是重要的,但計畫過於詳
記得那時候是高中三年級,當時也是在日本書上看到這個做法。 那時候我是徒手把書撕破, 就發現書脊那邊除了有熱融膠,還有一綑一綑的紙張。 而透過把書撕破來閱讀,的確可以把書的Scope 縮小, 更好玩的是,拆亂的書頁, 你可以怎麼用自己的邏輯再重新順成一個邏輯, 那真的是一個鍛鍊自己組織內容很好的練習。
1. 誤以為每個人都有自己的意見: - 很多人實際上只是隨波逐流,並沒有真正的獨立思考。這些人常常在看到某些意見時,會說「我也是這麼想的」,但實際上他們並沒有深入思考過這個問題。 2. 站隊形成優越感: - 有些人會因為站在某個特定意見的隊伍中而產生優越感,覺得自己比別人更有見地。
你可能也想看
Thumbnail
「設計不僅僅是外觀和感覺。設計是其運作的方式。」 — Steve Jobs 身為一個獨立文案,許多人會以為我們的生活只需要面對電腦,從無到有,用精巧的文字填滿空白的螢幕,呈現心目中獨具風格的作品。 ——有的時候可以如此,但其實這是我們夢寐以求的偶發日常。 更多的時候,白天的工作時間總被各種繁雜
Thumbnail
台股、美股近期明顯回檔,市場敘事發生改變,壞消息一樁接一樁出現,下一步該怎麼走呢?本文將探討近期的宏觀經濟事件,並分享個人的操作思考。
Thumbnail
照夜白/圖 貓落/文 一場廢盡千辛萬苦的圖文集 --《漠視錄》 《C.A.G.E》 別看了 是嗎.. 像是牢籠嗎? 如何向內擁抱都有個極限 最後會停在 自身 一個 單位 太多了已經
C 台灣的新創團隊 如果想要使用以太坊技術 來營利同時做公益慈善 可以發展那些專案 #VitalikButerin #ETHTaipei2024 #ETHTaipeiHackathon2024 ... (好的顧問導師教練 協助妳提早得到幸福 更快實現夢想 幸福課程
C如何找到和確認誰是真正該被幫助的善良弱勢? 如何找到和確認真正在做對的事的公益慈善? 如何查核公益慈善的正職和志工 避免有用善心的人做的很累 混水摸魚的卻可以領到薪水拿到時數證明? 幸福教練黃老師 潮資訊媒體 找到和確認真正需要幫助的善良弱勢 以及評估公益慈善的正確性和透明
Thumbnail
c女生在高中 高職 大學 如果想參加各種科技新創 社會創新 永續設計等等相關比賽 應該主動學習和培養 哪些知識和技能 幸福教練黃老師 潮資訊媒體 參加科技新創、社會創新以及永續設計等相關比賽, 女生在高中或高職階段 可以主動學習和培養以下知識和技能: 程式設計和編程
Thumbnail
C型肝炎是由C型肝炎病毒感染引起的疾病,常見症狀包括疲倦、食慾不振、噁心、腹部不適等。文章介紹了C型肝炎的傳染方式、感染風險族群以及預防方法。此外,也提供了西醫和中醫對C型肝炎的治療方法和常用中藥的介紹。
Thumbnail
C怎麼填詞 才能夠 更有畫面感 更有故事性 更能夠引起共鳴 更能朗朗上口 更有機會得金曲獎 更有機會得金馬獎 更有機會得葛萊美獎 幸福課程 幸福教練黃老師 潮資訊媒體 社群編輯 填詞是一門藝術, 需要結合文學、音樂感和表達力。 以下是一些建議, 讓妳的歌詞作更有
Thumbnail
當我的自營工作室客源開始穩定時,C就這樣悄悄走進我的生命裡,至今為止,我和C從來沒有吵架過,連一點點的不愉快、疙瘩甚至懷疑都沒有,對我而言,C的意義只有美好。她總是希望我過得好,我也祝福她永遠快樂。     我的租屋處是一棟由五樓透天隔間的大套房,而我就住在頂樓,旁邊還有一間空房一直沒人承租
Thumbnail
發洩完情緒之後,內心裡,總會有一種抒坦。是那種放下的感覺,是那種,什麼都好,都可以不重要,只有自己的那種,唯我獨尊的快感。可以不必再在意些什麼,不必再掙扎著去要求些什麼。唯有放寛心了,才能更真實去體驗自己正在經歷的過程。放下些什麼,才能獲得些什麼。 昨晚,C因為工作無法前來陪伴休假的我。經前症候群嚴
Thumbnail
「設計不僅僅是外觀和感覺。設計是其運作的方式。」 — Steve Jobs 身為一個獨立文案,許多人會以為我們的生活只需要面對電腦,從無到有,用精巧的文字填滿空白的螢幕,呈現心目中獨具風格的作品。 ——有的時候可以如此,但其實這是我們夢寐以求的偶發日常。 更多的時候,白天的工作時間總被各種繁雜
Thumbnail
台股、美股近期明顯回檔,市場敘事發生改變,壞消息一樁接一樁出現,下一步該怎麼走呢?本文將探討近期的宏觀經濟事件,並分享個人的操作思考。
Thumbnail
照夜白/圖 貓落/文 一場廢盡千辛萬苦的圖文集 --《漠視錄》 《C.A.G.E》 別看了 是嗎.. 像是牢籠嗎? 如何向內擁抱都有個極限 最後會停在 自身 一個 單位 太多了已經
C 台灣的新創團隊 如果想要使用以太坊技術 來營利同時做公益慈善 可以發展那些專案 #VitalikButerin #ETHTaipei2024 #ETHTaipeiHackathon2024 ... (好的顧問導師教練 協助妳提早得到幸福 更快實現夢想 幸福課程
C如何找到和確認誰是真正該被幫助的善良弱勢? 如何找到和確認真正在做對的事的公益慈善? 如何查核公益慈善的正職和志工 避免有用善心的人做的很累 混水摸魚的卻可以領到薪水拿到時數證明? 幸福教練黃老師 潮資訊媒體 找到和確認真正需要幫助的善良弱勢 以及評估公益慈善的正確性和透明
Thumbnail
c女生在高中 高職 大學 如果想參加各種科技新創 社會創新 永續設計等等相關比賽 應該主動學習和培養 哪些知識和技能 幸福教練黃老師 潮資訊媒體 參加科技新創、社會創新以及永續設計等相關比賽, 女生在高中或高職階段 可以主動學習和培養以下知識和技能: 程式設計和編程
Thumbnail
C型肝炎是由C型肝炎病毒感染引起的疾病,常見症狀包括疲倦、食慾不振、噁心、腹部不適等。文章介紹了C型肝炎的傳染方式、感染風險族群以及預防方法。此外,也提供了西醫和中醫對C型肝炎的治療方法和常用中藥的介紹。
Thumbnail
C怎麼填詞 才能夠 更有畫面感 更有故事性 更能夠引起共鳴 更能朗朗上口 更有機會得金曲獎 更有機會得金馬獎 更有機會得葛萊美獎 幸福課程 幸福教練黃老師 潮資訊媒體 社群編輯 填詞是一門藝術, 需要結合文學、音樂感和表達力。 以下是一些建議, 讓妳的歌詞作更有
Thumbnail
當我的自營工作室客源開始穩定時,C就這樣悄悄走進我的生命裡,至今為止,我和C從來沒有吵架過,連一點點的不愉快、疙瘩甚至懷疑都沒有,對我而言,C的意義只有美好。她總是希望我過得好,我也祝福她永遠快樂。     我的租屋處是一棟由五樓透天隔間的大套房,而我就住在頂樓,旁邊還有一間空房一直沒人承租
Thumbnail
發洩完情緒之後,內心裡,總會有一種抒坦。是那種放下的感覺,是那種,什麼都好,都可以不重要,只有自己的那種,唯我獨尊的快感。可以不必再在意些什麼,不必再掙扎著去要求些什麼。唯有放寛心了,才能更真實去體驗自己正在經歷的過程。放下些什麼,才能獲得些什麼。 昨晚,C因為工作無法前來陪伴休假的我。經前症候群嚴