LXMERT(Learning Cross-Modality Encoder Representations from Transformers)是一個專為視覺與語言跨模態任務設計的深度學習模型。其核心目標是學習圖像和文字之間的對齊與互動,支持多種視覺語言理解任務,例如視覺問答(VQA)、視覺推理(GQA)、和視覺語言匹配等。
LXMERT 的架構特點:
• 三個編碼器組成:• 物件關係編碼器(Object Relationship Encoder):處理輸入圖像中不同物件之間的空間與語義關係(基於區域特徵,如 Faster R-CNN 提取的目標區域特徵)。
• 語言編碼器(Language Encoder):處理輸入的問題或描述文本,基於 Transformer 架構編碼詞語和語義。
• 跨模態編碼器(Cross-Modality Encoder):融合物件和語言表示,通過自注意力和交叉注意力機制學習視覺與語言的相互依賴和語義對齊。
• 預訓練任務多元:
• 掩碼語言建模(Masked Language Modeling)
• 掩碼物件預測(物件特徵回歸和標籤分類)
• 跨模態匹配
• 視覺問答(VQA)
• 訓練數據包含多個大規模多模態數據集,如 MSCOCO、Visual Genome、VQA 2.0 和 GQA。
表現與應用:
• LXMERT 在多個視覺語言基準,如 VQA 和 GQA 數據集上取得當時領先結果。
• 在視覺推理任務 NLVR2 中有顯著提升,顯示良好的泛化能力。
• 支持複雜的圖像與語言理解,廣泛應用於視覺問答、圖文檢索及語義理解領域。
簡單說,LXMERT 是一種先進的跨模態 Transformer 模型,通過專門設計的三編碼器架構和多任務預訓練,有效學習和結合圖像物件特徵與語言語義,推動視覺與語言理解技術的發展。