深度學習中的self-attention機制

2024/05/03閱讀時間約 4 分鐘

前面的篇章，我們主要都是在處理單一的輸入值，或是固定size的一維矩陣輸入值。但有時候我們會沒辦法保證輸入的大小都是固定的，像是聲音訊號、文字長度。或者輸入的值是一組vector set，像是一次有好幾組vector同時要輸入等等。

同樣的，很多時候我們沒辦法知道輸出的label的size，像是我們輸入一段文字，可能只需要透過classification辨別文字給予的評價好壞，這時候就只會有一個輸出。或者是在翻譯英文的時候，就可能是一個英文字對應到一個中文字，這時候幾組輸入可能就對應到幾組輸出。

*當輸入與輸出是一個set對一個set，那我們可以稱之為sequence-to-sequence的問題。

Q:那如果我們各別將每一組的input直接經過fully connected network計算可以得到我們的目標嗎？

A: 有些問題可以，但像是英翻中的問題，是不是就會考慮到詞性問題，考慮到他們彼此的依賴關係？這時候fully connected Network就沒辦法精準處理我們的問題。

-> 所以才需要self-attention。

self-attention

self attention能夠同時接收整個sequence的資訊，就能考慮到彼此的依賴關係。

要如何計算self Attention?

首先，我們假設有一個sequence的input: a₁, a₂, a₃, a₄。會用a來表示而不是x是因為有可能他是最初的輸入，也有可能前面hidden layer的輸出，也就是是前面已經先透過 fully connected或是self-attention的計算。
透過Dot-product的方法（較常用的方法），依序找出a_i與其他a_j的關聯程度，用𝛼來表示。
計算出其相關性，通過softmax(不一定需要)，就會得到a'_1,1, a'_1,2, a'_1,3, a'_1,4
接著通過一個共同的向量𝑊𝑣分別與a₁, a₂, a₃, a₄相乘計算出𝒗_1,𝒗_2,𝒗_3,𝒗₄，最後在相乘計算出b'_1,1, b'_1,2, b'_1,3, b'_1,4，加總得到b₁。
那如果a₁~a₄哪個關聯性越大，值就會最大，那最後加總得到的b₁值就會越接近該值（假設a₁與a₂關聯度很高，最後a₂的值會與b₁非常相近）。

*b₁~b₄的計算不需要照順序，他們可以同時平行計算。

*W_q, W_k, W_v(transformer)的參數需要透過training data尋找。

*我們也可以將a1~a4整合起來做為矩陣，W也能以矩陣表示。

Dot-product的計算方法：

需要被計算出關聯性的主角，我們先透過W_q, W_k得到q_i(query)與k_i(key)，其他的配角計算出k_j(key)。

接著，我們將q_i 與所有配角的 k_j相乘，就能得到關聯性𝛼_ij。

Multi-head Self-attention

相關性本身就有許多不一樣的定義，所以我們應該要有不同q與k，做出不同的相關性 → 以此推論出會有不同的k與v，這就被稱為有多個head。但要注意的是，如果我們有多個q，那在計算時它們彼此是獨立的，不能互相使用。

Positional Encoding

但到目前為止，我們少了一個位置的資訊。但有時位置的資訊也是很重要，像是英文字的位置有可能決定他是名詞或是動詞，因此我們需要加上一個判斷位置的資訊。

所以我們可以設置一個位置參數e_i，加入到a_i上面。(第一個位置就是e₁,第二個就是e₂)，e_i的值是可以由我們設計的。 -> 這部分是尚待研究的問題，可以參考一些論文的設計。

語音辨識的使用

通常我們在語音辨識上，每一個向量只有10ms的範圍，所以講一句話就有可能產生上千個向量，複雜度就會提高。

-> 所以在語音辨識上，我們可以採用Truncated Self-attention的方法，在看一整個句子時，只挑選某個範圍內的文字做辨識，這樣就不需要輸入所有的向量。

Self-attention VS CNN

CNN可以看做是簡化版的Self-attention，CNN是只計算receptive field一個特定小範圍，而self-attention是考慮整個範圍。

認真想想，其實圖片本身就是一組vector set，所以自然也能使用self-attention。而且self attention能夠透過attention，找到圖片中的像素與自己W參數的相關性，就好像receptive field是機器自己決定出來的(大小、範圍等等)，而不像CNN是有我們自己設定的。

以上是關於今天self-attention的基礎知識~

1會員

13Content count

留言0

查看全部

發表第一個留言支持創作者！

dab戴伯的沙龍的其他內容

卷積神經網路(CNN)在影像辨識中的應用

卷積神經網路（CNN）是一種專門用於影像相關應用的神經網路。本文介紹了CNN在影像辨識中的應用，包括圖片的組成、Receptive Field、Parameter Sharing、以及Pooling等技術。通過本文，讀者將瞭解CNN在影像辨識領域的優勢和運作原理。

#影像 #數字 #神經

類神經網路訓練批次標準化 (Batch Normalization)

本文介紹了在深度學習中使用Batch Normalization來解決error surface複雜性的問題。通過特徵歸一化來加速收斂速度和訓練順利程度。同時，也提到了在測試階段使用moving average計算平均值和標準差的方法。

#學習

類神經網路訓練訓練機器分類與Cross-entropy

瞭解如何透過Regression實作Classification，使用one-hot vector表示不同的類別，並透過乘上不同的Weight和加上不同的bias來得到三個數值形成向量。同時通過softmax的方式得到最終的y'值，並探討使用Cross-entropy來計算類別的loss。

深度學習優化中的動態學習率

瞭解梯度下降算法中的學習速率調整，包括為什麼需要動態的學習速率、Root Mean Square、RMSProp、最常用的optimization策略Adam，以及如何進行Learning rate Scheduling。

#學習 #權重 #Adam

深度學習中的Batch與Momentum

本文將介紹batch的定義與其在機器學習中的作用，以及不同batch size 的影響。同時也會講解Momentum動量在機器學習中的重要性。透過本文，您將清楚地瞭解batch、batch size和Momentum動量的概念以及其對機器學習的影響。

#學習

類神經網路訓練局部最小值 (local minima) 與鞍點 (saddle point)

之前有提到有時我們在微分之後會得到gradient = 0的值，就以為我們已經找到最小值，但其實它只是local minima。那這一節主要想跟大家分享我們要怎麼區分是不是Local Minima。

卷積神經網路(CNN)在影像辨識中的應用

#影像 #數字 #神經

類神經網路訓練批次標準化 (Batch Normalization)

#學習

類神經網路訓練訓練機器分類與Cross-entropy

深度學習優化中的動態學習率

#學習 #權重 #Adam

深度學習中的Batch與Momentum

#學習

類神經網路訓練局部最小值 (local minima) 與鞍點 (saddle point)

你可能也想看

美股韭菜王

2024/09/18

Fed 9月會議：傳達「不想要落後給曲線」的正向信號，著手管理市場的衰退預期

重點摘要： 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期，但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱，經濟復甦的時點或是 1Q25 季底附近

#聯準會 #Fed #降息

方格子 vocus 官方沙龍

2024/08/27

「相簿裡最捨不得刪的 N 張照片！」：完成任務抽富士即可拍！

近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎？新版式整體視覺上「更加凸顯圖片」，為了搭配這次的更新，我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務，還有機會獲得富士即可拍，讓你的美好回憶都可以用即可拍珍藏！

#相簿裡最捨不得刪的照片

小豆pika的園地

2024/04/18

《深度學習力》指定閱讀的閱讀建議、放棄的關鍵字是?

這本書訪談了大學學生，並且歸納出幾點建議，書中也提到不必每條條都嚴格遵守，而是選擇一組吸引你的規則，並在大學生活中履行。我自己在看這本書的時候，結合自己的大學經歷，選取幾點我比較有感觸的部分，分為以下幾點，後面則會提到一些關於書中內容反思

#學習 #閱讀 #閱讀心得

王啟樺的沙龍

2023/09/07

《探索筆記卡片：從瞬間想法到深入的知識管理》3：解密學術論文：用卡片化學習突破知識障礙

學術論文的段落比網路文章更為複雜。利用筆記卡片的方式來解析學術論文能夠提煉出更具價值的知識。此外，卡片化的學習方法可能對學術研究特別有用。

#卡片盒筆記 #學術 #論文

Jenny Hsu的沙龍

2023/08/25

《閱讀一篇Nvidia國際時事英文，深入學習四大TOEIC文法焦點及二十個多益藍色及金色證照高分詞彙》

英文學習貴在能學以致用。自學好（中）高階時事（商用）英文過程中，關鍵在於是否有足夠詞彙量？及是否能自行理解字裡行間複雜的文法結構？每日例行閱讀一篇國際知名新聞摘要，是自我提升英文很有效的方法，雖然花時間，但工整的複習筆記，就是建構自己知識庫很重要的學習資源。

#英文學習 #TOEIC考試準備 #多益藍色及金色證照

阿塔的沙龍

2023/08/10

心得：<深度學習的技術>(作者:Roxas 楊大輝)重點與生活應用

我因為老高關於講運氣的影片，看到某位觀眾留言4think的文章，文筆通順好閱讀、案例有趣好吸收，不看還看一看成粉絲，在這邊也推薦該網站給大家。本書我推薦給對於閱讀、思考領域有興趣的讀者

#閱讀 #學習 #思想

王啟樺的沙龍

2023/06/19

原紫短文023: 在資訊繁複的環境中，你是否經常感到學習過於分散、無法深入，或是難以理解自己的內心世界？

在資訊繁複的環境中，你是否經常感到學習過於分散、無法深入，或是難以理解自己的內心世界？在這個瞬息萬變的世界裡，我們都渴望抓住並善用所獲得的知識，並深入理解自己的內在世界。你是否曾經苦惱過如何有效地管理學習，讓思考更有深度，或者如何更好地理解自己的情感和想法？這篇文章會為你揭示三個能有效解答這些問題

#Obsidian #日記寫作 #數位筆記

雙英教育戰線的沙龍

2023/05/02

人工智慧為何突飛猛進？細談「深度學習」對Chatgpt的長遠影響

記得2001年的時候，曾經上映一步電影，叫作「A.I.人工智慧」，格式是在描述一個機械小男孩，想要成為人類的故事。記得2001年的時候，曾經上映一步電影，叫作「A.I.人工智慧」，格式是在描述一個機械小男孩，想要成為人類的故事。當時在看這部電影的時候，除了對於小男孩的執著印象深刻外，另外也在思考，

#人工智慧 #深度學習 #ChatGPT

大吉嶺｜閱讀行動派的沙龍

2022/11/04

🎤【深度工作提升的兩種關鍵能力：學習力x生產力】 #深度工作力03/15

快速精通專業的學習能力與在品質和速度達到高水準的生產能力，是在快速變化的數位時代中，取得不可取代性與競爭力的兩種關鍵能力，而這兩種關鍵能力與深度工作力息息相關：你是否能長時間專注在單一工作上。

#學習 #簡報 #深度工作力

Peiwen K的沙龍

2020/11/22

關於創作者這種人：談學習獨處，與悲傷與作品的深度之關聯。

在一個波光粼粼的人造河邊，我想著怎麼樣的人，最後能走上創作這條路？作家這等人的本質是什麼？從學術的世界出走，開始進入藝術的世界後，發現科學跟藝術，本質上是相似的－都需要面對一個人的孤獨。

#藝術 #創作 #孤獨

陳華夫hwafuchen的沙龍

2020/02/26

AI「深度學習」的缺陷及我親身的補正？─科技智慧（5）

現代流圍棋五原則能擊敗（干擾）「ZenGo 九段」與「Katrain 9段」電腦圍棋，其意義類似當今時髦的愚弄人工智慧的「干擾遊戲」。也同時證明了，人類的圍棋智慧卻是「由上而下」（Top-Down）的「知識策略」，最終可能戰勝有史以來最強的AI人工智慧電腦圍棋─ AlphaGo Zero。

#AlphaGoZero #現代流5原則 #AI人工智慧

【輕輕吹，蒲公英飛】《快樂的孩子，分享快樂》的沙龍

2010/07/13

深度學習中的self-attention機制

self-attention

Multi-head Self-attention

Self-attention VS CNN

卷積神經網路(CNN)在影像辨識中的應用

類神經網路訓練 批次標準化 (Batch Normalization)

類神經網路訓練 訓練機器分類與Cross-entropy

深度學習優化中的動態學習率

深度學習中的Batch與Momentum

類神經網路訓練 局部最小值 (local minima) 與鞍點 (saddle point)

卷積神經網路(CNN)在影像辨識中的應用

類神經網路訓練 批次標準化 (Batch Normalization)

類神經網路訓練 訓練機器分類與Cross-entropy

深度學習優化中的動態學習率

深度學習中的Batch與Momentum

類神經網路訓練 局部最小值 (local minima) 與鞍點 (saddle point)

你可能也想看

Fed 9月會議：傳達「不想要落後給曲線」的正向信號，著手管理市場的衰退預期

「相簿裡最捨不得刪的 N 張照片！」：完成任務抽富士即可拍！

《深度學習力 》指定閱讀的閱讀建議、放棄的關鍵字是?

《探索筆記卡片：從瞬間想法到深入的知識管理》3：解密學術論文：用卡片化學習突破知識障礙

《閱讀一篇Nvidia國際時事英文，深入學習四大TOEIC文法焦點及二十個多益藍色及金色證照高分詞彙》

心得：<深度學習的技術>(作者:Roxas 楊大輝)重點與生活應用

原紫短文023: 在資訊繁複的環境中，你是否經常感到學習過於分散、無法深入，或是難以理解自己的內心世界？

人工智慧為何突飛猛進？細談「深度學習」對Chatgpt的長遠影響

🎤【深度工作提升的兩種關鍵能力：學習力x生產力】 #深度工作力03/15

關於創作者這種人：談學習獨處，與悲傷與作品的深度之關聯。

AI「深度學習」的缺陷及我親身的補正？─科技智慧（5）

邀請爸爸媽媽成為專業家長-..培養深度閱讀力，讓孩子成為終身學習者

Fed 9月會議：傳達「不想要落後給曲線」的正向信號，著手管理市場的衰退預期

「相簿裡最捨不得刪的 N 張照片！」：完成任務抽富士即可拍！

《深度學習力 》指定閱讀的閱讀建議、放棄的關鍵字是?

《探索筆記卡片：從瞬間想法到深入的知識管理》3：解密學術論文：用卡片化學習突破知識障礙

《閱讀一篇Nvidia國際時事英文，深入學習四大TOEIC文法焦點及二十個多益藍色及金色證照高分詞彙》

心得：<深度學習的技術>(作者:Roxas 楊大輝)重點與生活應用

原紫短文023: 在資訊繁複的環境中，你是否經常感到學習過於分散、無法深入，或是難以理解自己的內心世界？

人工智慧為何突飛猛進？細談「深度學習」對Chatgpt的長遠影響

🎤【深度工作提升的兩種關鍵能力：學習力x生產力】 #深度工作力03/15

關於創作者這種人：談學習獨處，與悲傷與作品的深度之關聯。

AI「深度學習」的缺陷及我親身的補正？─科技智慧（5）

邀請爸爸媽媽成為專業家長-..培養深度閱讀力，讓孩子成為終身學習者

類神經網路訓練批次標準化 (Batch Normalization)

類神經網路訓練訓練機器分類與Cross-entropy

類神經網路訓練局部最小值 (local minima) 與鞍點 (saddle point)

類神經網路訓練批次標準化 (Batch Normalization)

類神經網路訓練訓練機器分類與Cross-entropy

類神經網路訓練局部最小值 (local minima) 與鞍點 (saddle point)

《深度學習力》指定閱讀的閱讀建議、放棄的關鍵字是?

《深度學習力》指定閱讀的閱讀建議、放棄的關鍵字是?