UNITER(UNiversal Image-TExt Representation Learning)是一種專為視覺與文本多模態任務設計的預訓練模型,旨在學習統一的圖像與文本語義表示,支持視覺問答(VQA)、圖文檢索、視覺推理等多種下游任務,並在多個視覺語言基準上取得卓越表現。
UNITER 的模型架構和技術特色:
• 輸入表示:• 圖像輸入由預訓練的 Faster R-CNN 提取圖像中的物件區域特徵(Region of Interest,ROI)和位置特徵(區域邊界框座標等),經過全連接層變換後與位置特徵嵌入相加。
• 文字輸入則按 BERT 方式將句子分詞成 WordPiece,並結合詞向量與位置向量。
• 兩種模態分別輸入 Image Embedder 和 Text Embedder,轉換成嵌入向量後混合進入共享 Transformer 編碼器。
• Transformer 模塊:
• 使用多層 Transformer 結構進行深度融合,通過自注意力學習語言與圖像區域的交互關係。
• 明確加入位置和模態標記,幫助模型識別文本和視覺特徵的空間與語境資訊。
• 預訓練任務:
• 掩碼語言建模(Masked Language Modeling,MLM):根據圖像信息推斷被遮蔽的詞彙。
• 掩碼區域建模(Masked Region Modeling,MRM):根據文本信息推斷被遮蔽的圖像區域特徵。
• 圖文匹配(Image-Text Matching,ITM):判斷圖像和文字是否匹配。
• 單詞與區域對齊(Word-Region Alignment,WRA):利用優化運輸方法強化詞語與圖像區域的精細對應關係。
• 訓練數據:使用多個大型圖文數據集(COCO, Visual Genome, Conceptual Captions 等)進行大規模預訓練。
UNITER 的表現及應用:
• 在視覺問答(VQA)、圖文檢索、視覺推理(VCR、NLVR2)等多個多模態任務取得了當前領先成績。
• 精細的詞與圖像區域對齊促進了模型對語義的深入理解。
• 可作為多種跨模態任務的基礎模型,方便下游任務微調應用。
簡單說,
UNITER 是一款基於 Transformer 的多模態預訓練架構,通過多種創新預訓練任務學習統一的圖像與文本表示,極大提升了視覺與語言融合任務的效果和泛化能力。