LXMERT（Learning Cross-Modality Encoder Representations from

2025/08/19 更新2025/08/19 發佈閱讀 3 分鐘

LXMERT（Learning Cross-Modality Encoder Representations from Transformers）是一個專為視覺與語言跨模態任務設計的深度學習模型。其核心目標是學習圖像和文字之間的對齊與互動，支持多種視覺語言理解任務，例如視覺問答（VQA）、視覺推理（GQA）、和視覺語言匹配等。

LXMERT 的架構特點：

• 三個編碼器組成：

• 物件關係編碼器（Object Relationship Encoder）：處理輸入圖像中不同物件之間的空間與語義關係（基於區域特徵，如 Faster R-CNN 提取的目標區域特徵）。

• 語言編碼器（Language Encoder）：處理輸入的問題或描述文本，基於 Transformer 架構編碼詞語和語義。

• 跨模態編碼器（Cross-Modality Encoder）：融合物件和語言表示，通過自注意力和交叉注意力機制學習視覺與語言的相互依賴和語義對齊。

• 預訓練任務多元：

• 掩碼語言建模（Masked Language Modeling）

• 掩碼物件預測（物件特徵回歸和標籤分類）

• 跨模態匹配

• 視覺問答（VQA）

• 訓練數據包含多個大規模多模態數據集，如 MSCOCO、Visual Genome、VQA 2.0 和 GQA。

表現與應用：

• LXMERT 在多個視覺語言基準，如 VQA 和 GQA 數據集上取得當時領先結果。

• 在視覺推理任務 NLVR2 中有顯著提升，顯示良好的泛化能力。

• 支持複雜的圖像與語言理解，廣泛應用於視覺問答、圖文檢索及語義理解領域。

簡單說，LXMERT 是一種先進的跨模態 Transformer 模型，通過專門設計的三編碼器架構和多任務預訓練，有效學習和結合圖像物件特徵與語言語義，推動視覺與語言理解技術的發展。

含 AI 應用內容

郝信華 iPAS AI應用規劃師學習筆記多模態人工智慧應用

留言

留言分享你的想法！

郝信華 iPAS AI應用規劃師學習筆記

30會員

495內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/08/19

Visual Question Answering（VQA）

Visual Question Answering（VQA）是一種多模態人工智慧任務，目標是讓系統能對輸入的圖片和與之相關的文字問題進行理解，並生成準確且自然語言形式的答案。 VQA 基本流程： 1. 圖像特徵提取：利用卷積神經網絡（CNN）或視覺 Transformer（ViT）對圖片進行特

2025/08/19

Visual Question Answering（VQA）

2025/08/19

GPT-4V

GPT-4V，全稱 GPT-4 Vision，是 OpenAI 大型多模態模型 GPT-4 的視覺擴展版本。它不僅能處理文本輸入，還可以理解和生成基於圖片的文本響應，實現跨模態的智能交互。 GPT-4V 主要特點： • 多模態能力：同時接受圖像和文字輸入，能基於圖片內容回答問題、生成描述、進行

2025/08/19

GPT-4V

2025/08/19

VisualBERT

VisualBERT 是一種多模態模型，結合了視覺（圖片）和語言（文字）信息，基於 Transformer 架構，專門用於跨模態任務，如視覺問答（VQA）、視覺推理（VCR）、圖文檢索等。 VisualBERT 的主要架構與特點： • 依托 BERT 結構，將文本與視覺特徵融合處理。 •

2025/08/19

VisualBERT

看更多

你可能也想看

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 129 中說，Bidirectional Encoder Representations from Transformers (BER

#AI#ai#PromptEngineering

2024/08/13

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

#AI#ai#PromptEngineering

2024/08/13

Learn AI 不 BI

AI說書 - 從0開始 - 128 | Transformer 和 BERT 模型參數比較

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在 AI說書 - 從0開始 - 127 中提及： Transformer 的關鍵參數為：原始 Transformer 模型中，左圖的 N = 6 原始 Tran

#AI#ai#PromptEngineering

2024/08/12

Learn AI 不 BI

AI說書 - 從0開始 - 128 | Transformer 和 BERT 模型參數比較

#AI#ai#PromptEngineering

2024/08/12

Learn AI 不 BI

AI說書 - 從0開始 - 127 | BERT 和 Transformer 模型比較

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 69 的第二章內容，我們拿 Encoder 出來看：幾點注意如下： BERT 模型使用 M

#AI#ai#PromptEngineering

2024/08/11

Learn AI 不 BI

AI說書 - 從0開始 - 127 | BERT 和 Transformer 模型比較

#AI#ai#PromptEngineering

2024/08/11

Learn AI 不 BI

AI說書 - 從0開始 - 115 | Google Trax 載入預訓練權重

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。現在我們來載入預訓練權重，預訓練的權重包含 Transformer 的智慧

#AI#ai#promptengineering

2024/08/05

Learn AI 不 BI

AI說書 - 從0開始 - 115 | Google Trax 載入預訓練權重

#AI#ai#promptengineering

2024/08/05

Learn AI 不 BI

AI說書 - 從0開始 - 67

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder

#AI#ai#PromptEngineering

2024/06/30

Learn AI 不 BI

AI說書 - 從0開始 - 67

#AI#ai#PromptEngineering

2024/06/30

Learn AI 不 BI

AI說書 - 從0開始 - 51

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。講完 Transformer 之 Encoder 架構中的 Embedding 與 Positional Encoding 部分，現在進入 Multi-Head Att

#AI#ai#PromptEngineering

2024/06/26

Learn AI 不 BI

AI說書 - 從0開始 - 51

#AI#ai#PromptEngineering

2024/06/26

Learn AI 不 BI

AI說書 - 從0開始 - 42

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在AI說書 - 從0開始 - 41中，我們提及 Transformer 的 Encoder 架構如下圖所示，同時我們羅列幾個要點於圖示右邊：原始 Transform

#AI#ai#PromptEngineering

2024/06/23

Learn AI 不 BI

AI說書 - 從0開始 - 42

#AI#ai#PromptEngineering

2024/06/23

Marcos的方格子

大型語言模型常用的提詞框架 | Coursera 課程回顧(下)

大型語言模型（Large Language Model，LLM）是一項人工智慧技術，其目的在於理解和生成人類語言，可將其想像成一種高階的「文字預測機器」，然而，它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外，今天我們會介紹使用 LLM 的框架。

#PromptPattern#LLM#ChatGPT

2024/03/09

Marcos的方格子

大型語言模型常用的提詞框架 | Coursera 課程回顧(下)

#PromptPattern#LLM#ChatGPT

2024/03/09

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News