Cross Attention

更新於 發佈於 閱讀時間約 3 分鐘

Cross Attention 是 Transformer 模型中的一種注意力機制,主要用於讓模型能夠同時處理來自兩個不同來源的序列信息。它常見於編碼器-解碼器架構中,解碼器透過 cross attention「關注」編碼器輸出的所有位置,從而有效地融合與利用輸入序列信息生成相應輸出。

Cross Attention 的運作原理:

Query(查詢):來自解碼器(或目標序列)的當前狀態表示。

Key(鍵)和 Value(值):來自編碼器輸出的序列表示。

Cross attention 計算 Query 與所有 Key 的相似度(通常是點積),得到注意力權重分布。

根據權重分布加權求和對應的 Value,得到融合後的信息作為輸出。

這使得解碼器能「根據自己的狀態」動態從編碼的輸入序列中選擇相關信息。

與 Self Attention 的差異:

Self attention 中 Query、Key、Value 三者都來自同一序列,處理的是序列內部元素間的依賴。

Cross attention 中 Query 與 Key、Value 來自不同序列,用於跨序列信息交互。

應用案例:

機器翻譯:解碼器生成一個詞時,從編碼器輸入的所有詞語中選取相關信息。

多模態模型:如將文本(Query)和圖像特徵(Key、Value)結合,實現圖文信息融合。

視覺語言任務:在 ViLBERT、VisualBERT 等多模態模型中,用於視覺和語言信息交互。

簡單比喻:

Cross attention 就像一個學生(解碼器)在寫作文時,不僅考慮自己已有的想法(Query),還會參考一本書(編碼器輸出)中所有相關內容(Key、Value),有選擇地引用以豐富寫作。

總結:

Cross attention 是 Transformer 中促進不同序列間信息互動的重要機制,支持強有力的跨模態和序列到序列的學習與生成。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
17會員
437內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)
2025/08/18
LoRA(Low-Rank Adaptation)是一種高效的微調技術,設計用於快速適應大型預訓練模型(如GPT、BERT、T5)以完成特定任務,同時大幅減少需要調整的參數數量。它通過在模型的權重矩陣中引入低秩(low-rank)分解,僅學習少量可訓練參數,避免完整微調帶來的龐大計算和記憶體消耗。
2025/08/18
LoRA(Low-Rank Adaptation)是一種高效的微調技術,設計用於快速適應大型預訓練模型(如GPT、BERT、T5)以完成特定任務,同時大幅減少需要調整的參數數量。它通過在模型的權重矩陣中引入低秩(low-rank)分解,僅學習少量可訓練參數,避免完整微調帶來的龐大計算和記憶體消耗。
2025/08/18
Textual Inversion 是一種用於個性化文字到圖像生成模型(如 Stable Diffusion)的技術。它允許用戶通過少量示例圖片(通常3-5張),讓模型學會一個新的「詞彙」或「概念」,這個詞彙對應於用戶提供的特定對象、風格或人物。 主要原理: • 傳統的文字到圖像模型使用預訓練
2025/08/18
Textual Inversion 是一種用於個性化文字到圖像生成模型(如 Stable Diffusion)的技術。它允許用戶通過少量示例圖片(通常3-5張),讓模型學會一個新的「詞彙」或「概念」,這個詞彙對應於用戶提供的特定對象、風格或人物。 主要原理: • 傳統的文字到圖像模型使用預訓練
2025/08/18
Emergent Abilities(突現能力)指的是在大型人工智慧模型(特別是大型語言模型)中,隨著模型規模、資料量和計算能力的增加,模型突然顯現出未被明確設計或訓練的全新技能或行為。這些能力不是模型明確被編程或預訓練的,而是隨著系統的複雜度提升自發出現,帶有某種不可預測性。 主要特點: •
2025/08/18
Emergent Abilities(突現能力)指的是在大型人工智慧模型(特別是大型語言模型)中,隨著模型規模、資料量和計算能力的增加,模型突然顯現出未被明確設計或訓練的全新技能或行為。這些能力不是模型明確被編程或預訓練的,而是隨著系統的複雜度提升自發出現,帶有某種不可預測性。 主要特點: •
看更多
你可能也想看
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 127 中提及: Transformer 的關鍵參數為: 原始 Transformer 模型中,左圖的 N = 6 原始 Tran
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 127 中提及: Transformer 的關鍵參數為: 原始 Transformer 模型中,左圖的 N = 6 原始 Tran
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 仔細看 AI說書 - 從0開始 - 66 中,Decoder 的 Multi-Head Attention 框框,會發現有一條線空接,其實它是有意義的,之所以空接,是因
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 仔細看 AI說書 - 從0開始 - 66 中,Decoder 的 Multi-Head Attention 框框,會發現有一條線空接,其實它是有意義的,之所以空接,是因
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 接著來談 Transformer 架構中的 Feedforward Network (FFN): 其為全連接的神經網路架構 回顧 AI說書 - 從0開始 - 64
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 接著來談 Transformer 架構中的 Feedforward Network (FFN): 其為全連接的神經網路架構 回顧 AI說書 - 從0開始 - 64
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 52 中,我們已經解析完 Attention 機制如何運作的,以下延伸至 Multi-Head Attention: Head 1
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 52 中,我們已經解析完 Attention 機制如何運作的,以下延伸至 Multi-Head Attention: Head 1
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 講完 Transformer 之 Encoder 架構中的 Embedding 與 Positional Encoding 部分,現在進入 Multi-Head Att
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 講完 Transformer 之 Encoder 架構中的 Embedding 與 Positional Encoding 部分,現在進入 Multi-Head Att
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在AI說書 - 從0開始 - 41中,我們提及 Transformer 的 Encoder 架構如下圖所示,同時我們羅列幾個要點於圖示右邊: 原始 Transform
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在AI說書 - 從0開始 - 41中,我們提及 Transformer 的 Encoder 架構如下圖所示,同時我們羅列幾個要點於圖示右邊: 原始 Transform
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 中的 Attention 機制是 'Word-to-Word' 操作,抑或是 'Token-to-Token' 操作,白話來講就是:「對於句子中
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 中的 Attention 機制是 'Word-to-Word' 操作,抑或是 'Token-to-Token' 操作,白話來講就是:「對於句子中
Thumbnail
感知器是一種基本的神經網路模型,用於二分類問題。它模擬了人腦神經元的工作原理,通過調整權重和偏差值來達到預測和分類的目的。 感知器流程 輸入 資料的輸入: 輸入層接受資料的輸入,每個輸入對應一個特徵,還有一個固定的偏差神經元。 資料經過每個神經元時,會乘上相應的
Thumbnail
感知器是一種基本的神經網路模型,用於二分類問題。它模擬了人腦神經元的工作原理,通過調整權重和偏差值來達到預測和分類的目的。 感知器流程 輸入 資料的輸入: 輸入層接受資料的輸入,每個輸入對應一個特徵,還有一個固定的偏差神經元。 資料經過每個神經元時,會乘上相應的
Thumbnail
本文介紹了self-attention在處理不固定大小輸入值時的應用,並討論瞭如何計算self-attention以及transformer中的multi-head self-attention。此外,文章還探討了在語音辨識和圖片處理中使用self-attention的方法,以及與CNN的比較。
Thumbnail
本文介紹了self-attention在處理不固定大小輸入值時的應用,並討論瞭如何計算self-attention以及transformer中的multi-head self-attention。此外,文章還探討了在語音辨識和圖片處理中使用self-attention的方法,以及與CNN的比較。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News