ViLBERT(Vision-and-Language BERT)是一種多模態模型,將 BERT 架構擴展應用於同時理解圖像和文字的任務。它被設計用來學習通用的視覺-語言表示,支持多種視覺與語言結合的任務,比如視覺問答(VQA)、視覺推理和圖文檢索。
ViLBERT 核心架構:
• 採用雙流(Two-Stream)模式,一個 Transformer 流專門處理文本輸入,另一個流處理圖像特徵(通常是從物體檢測器如 Faster R-CNN 提取的區域特徵)。• 兩個流通過交叉注意力(co-attentional transformer layers)互相作用,融合視覺與語言信息。
• 預訓練階段包含多種代理任務(proxy tasks),幫助模型學習視覺與語言的結合特性。
• 可以經過少量調整適用於多種視覺-語言任務。
功能與優勢:
• 通過預訓練學會將圖像區域和語言描述對齊,提升對圖文語意的綜合理解。
• 支持零-shot或少樣本學習,減少訓練成本。
• 在多個視覺語言任務中達到或超越當時的領先表現。
簡單比喻:
ViLBERT 就像一個同時具備「視覺眼睛」和「語言耳朵」的智能系統,能理解圖像內物體及其語言描述之間的複雜關聯。
總結:
ViLBERT 是基於 BERT 的多模態模型,融合圖片與文字信息,專注於提升視覺-語言聯合理解,是跨模態任務中的重要基石模型。