郝信華 iPAS AI應用規劃師學習筆記

Cross Attention

iPAS AI應用規劃師學習筆記

發佈於生成式AI技術與應用

2025/08/19 更新2025/08/19 發佈閱讀 3 分鐘

Cross Attention 是 Transformer 模型中的一種注意力機制，主要用於讓模型能夠同時處理來自兩個不同來源的序列信息。它常見於編碼器-解碼器架構中，解碼器透過 cross attention「關注」編碼器輸出的所有位置，從而有效地融合與利用輸入序列信息生成相應輸出。

Cross Attention 的運作原理：

• Query（查詢）：來自解碼器（或目標序列）的當前狀態表示。

• Key（鍵）和 Value（值）：來自編碼器輸出的序列表示。

• Cross attention 計算 Query 與所有 Key 的相似度（通常是點積），得到注意力權重分布。

• 根據權重分布加權求和對應的 Value，得到融合後的信息作為輸出。

• 這使得解碼器能「根據自己的狀態」動態從編碼的輸入序列中選擇相關信息。

與 Self Attention 的差異：

• Self attention 中 Query、Key、Value 三者都來自同一序列，處理的是序列內部元素間的依賴。

• Cross attention 中 Query 與 Key、Value 來自不同序列，用於跨序列信息交互。

應用案例：

• 機器翻譯：解碼器生成一個詞時，從編碼器輸入的所有詞語中選取相關信息。

• 多模態模型：如將文本（Query）和圖像特徵（Key、Value）結合，實現圖文信息融合。

• 視覺語言任務：在 ViLBERT、VisualBERT 等多模態模型中，用於視覺和語言信息交互。

簡單比喻：

Cross attention 就像一個學生（解碼器）在寫作文時，不僅考慮自己已有的想法（Query），還會參考一本書（編碼器輸出）中所有相關內容（Key、Value），有選擇地引用以豐富寫作。

總結：

Cross attention 是 Transformer 中促進不同序列間信息互動的重要機制，支持強有力的跨模態和序列到序列的學習與生成。

含 AI 應用內容

#生成式AI技術與應用

郝信華 iPAS AI應用規劃師學習筆記生成式AI技術與應用

留言

留言分享你的想法！

郝信華 iPAS AI應用規劃師學習筆記

22會員

495內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/08/18

LoRA（Low-Rank Adaptation）

LoRA（Low-Rank Adaptation）是一種高效的微調技術，設計用於快速適應大型預訓練模型（如GPT、BERT、T5）以完成特定任務，同時大幅減少需要調整的參數數量。它通過在模型的權重矩陣中引入低秩（low-rank）分解，僅學習少量可訓練參數，避免完整微調帶來的龐大計算和記憶體消耗。

2025/08/18

LoRA（Low-Rank Adaptation）

LoRA（Low-Rank Adaptation）是一種高效的微調技術，設計用於快速適應大型預訓練模型（如GPT、BERT、T5）以完成特定任務，同時大幅減少需要調整的參數數量。它通過在模型的權重矩陣中引入低秩（low-rank）分解，僅學習少量可訓練參數，避免完整微調帶來的龐大計算和記憶體消耗。

2025/08/18

Textual Inversion

Textual Inversion 是一種用於個性化文字到圖像生成模型（如 Stable Diffusion）的技術。它允許用戶通過少量示例圖片（通常3-5張），讓模型學會一個新的「詞彙」或「概念」，這個詞彙對應於用戶提供的特定對象、風格或人物。主要原理： • 傳統的文字到圖像模型使用預訓練

2025/08/18

Textual Inversion

Textual Inversion 是一種用於個性化文字到圖像生成模型（如 Stable Diffusion）的技術。它允許用戶通過少量示例圖片（通常3-5張），讓模型學會一個新的「詞彙」或「概念」，這個詞彙對應於用戶提供的特定對象、風格或人物。主要原理： • 傳統的文字到圖像模型使用預訓練

2025/08/18

Emergent Abilities（突現能力）

Emergent Abilities（突現能力）指的是在大型人工智慧模型（特別是大型語言模型）中，隨著模型規模、資料量和計算能力的增加，模型突然顯現出未被明確設計或訓練的全新技能或行為。這些能力不是模型明確被編程或預訓練的，而是隨著系統的複雜度提升自發出現，帶有某種不可預測性。主要特點： •

2025/08/18

Emergent Abilities（突現能力）

Emergent Abilities（突現能力）指的是在大型人工智慧模型（特別是大型語言模型）中，隨著模型規模、資料量和計算能力的增加，模型突然顯現出未被明確設計或訓練的全新技能或行為。這些能力不是模型明確被編程或預訓練的，而是隨著系統的複雜度提升自發出現，帶有某種不可預測性。主要特點： •

你可能也想看

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

還在煩惱平凡日常該如何增添一點小驚喜嗎？全家便利商店這次聯手超萌的馬來貘，推出黑白配色的馬來貘雪糕，不僅外觀吸睛，層次豐富的雙層口味更是讓人一口接一口！本文將帶你探索馬來貘雪糕的多種創意吃法，從簡單的豆漿燕麥碗、藍莓果昔，到大人系的奇亞籽布丁下午茶，讓可愛的馬來貘陪你度過每一餐，增添生活中的小確幸！

#懶人料理#食譜#健康甜點

2025/10/15

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

還在煩惱平凡日常該如何增添一點小驚喜嗎？全家便利商店這次聯手超萌的馬來貘，推出黑白配色的馬來貘雪糕，不僅外觀吸睛，層次豐富的雙層口味更是讓人一口接一口！本文將帶你探索馬來貘雪糕的多種創意吃法，從簡單的豆漿燕麥碗、藍莓果昔，到大人系的奇亞籽布丁下午茶，讓可愛的馬來貘陪你度過每一餐，增添生活中的小確幸！

#懶人料理#食譜#健康甜點

2025/10/15

Learn AI 不 BI

AI說書 - 從0開始 - 128 | Transformer 和 BERT 模型參數比較

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在 AI說書 - 從0開始 - 127 中提及： Transformer 的關鍵參數為：原始 Transformer 模型中，左圖的 N = 6 原始 Tran

#AI#ai#PromptEngineering

2024/08/12

Learn AI 不 BI

AI說書 - 從0開始 - 128 | Transformer 和 BERT 模型參數比較

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在 AI說書 - 從0開始 - 127 中提及： Transformer 的關鍵參數為：原始 Transformer 模型中，左圖的 N = 6 原始 Tran

#AI#ai#PromptEngineering

2024/08/12

Learn AI 不 BI

AI說書 - 從0開始 - 68

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。仔細看 AI說書 - 從0開始 - 66 中，Decoder 的 Multi-Head Attention 框框，會發現有一條線空接，其實它是有意義的，之所以空接，是因

#AI#ai#PromptEngineering

2024/07/01

Learn AI 不 BI

AI說書 - 從0開始 - 68

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。仔細看 AI說書 - 從0開始 - 66 中，Decoder 的 Multi-Head Attention 框框，會發現有一條線空接，其實它是有意義的，之所以空接，是因

#AI#ai#PromptEngineering

2024/07/01

Learn AI 不 BI

AI說書 - 從0開始 - 65

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。接著來談 Transformer 架構中的 Feedforward Network (FFN)：其為全連接的神經網路架構回顧 AI說書 - 從0開始 - 64

#AI#ai#PositionalEncoding

2024/06/29

Learn AI 不 BI

AI說書 - 從0開始 - 65

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。接著來談 Transformer 架構中的 Feedforward Network (FFN)：其為全連接的神經網路架構回顧 AI說書 - 從0開始 - 64

#AI#ai#PositionalEncoding

2024/06/29

Learn AI 不 BI

AI說書 - 從0開始 - 53

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在 AI說書 - 從0開始 - 52 中，我們已經解析完 Attention 機制如何運作的，以下延伸至 Multi-Head Attention： Head 1

#AI#ai#PromptEngineering

2024/06/26

Learn AI 不 BI

AI說書 - 從0開始 - 53

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在 AI說書 - 從0開始 - 52 中，我們已經解析完 Attention 機制如何運作的，以下延伸至 Multi-Head Attention： Head 1

#AI#ai#PromptEngineering

2024/06/26

Learn AI 不 BI

AI說書 - 從0開始 - 52

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti

#AI#ai#PromptEngineering

2024/06/26

Learn AI 不 BI

AI說書 - 從0開始 - 52

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti

#AI#ai#PromptEngineering

2024/06/26

Learn AI 不 BI

AI說書 - 從0開始 - 51

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。講完 Transformer 之 Encoder 架構中的 Embedding 與 Positional Encoding 部分，現在進入 Multi-Head Att

#AI#ai#PromptEngineering

2024/06/26

Learn AI 不 BI

AI說書 - 從0開始 - 51

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。講完 Transformer 之 Encoder 架構中的 Embedding 與 Positional Encoding 部分，現在進入 Multi-Head Att

#AI#ai#PromptEngineering

2024/06/26

Learn AI 不 BI

AI說書 - 從0開始 - 42

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在AI說書 - 從0開始 - 41中，我們提及 Transformer 的 Encoder 架構如下圖所示，同時我們羅列幾個要點於圖示右邊：原始 Transform

#AI#ai#PromptEngineering

2024/06/23

Learn AI 不 BI

AI說書 - 從0開始 - 42

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在AI說書 - 從0開始 - 41中，我們提及 Transformer 的 Encoder 架構如下圖所示，同時我們羅列幾個要點於圖示右邊：原始 Transform

#AI#ai#PromptEngineering

2024/06/23

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News