VisualBERT 是一種多模態模型,結合了視覺(圖片)和語言(文字)信息,基於 Transformer 架構,專門用於跨模態任務,如視覺問答(VQA)、視覺推理(VCR)、圖文檢索等。
VisualBERT 的主要架構與特點:
• 依托 BERT 結構,將文本與視覺特徵融合處理。• 視覺特徵由物體偵測器(如 Faster R-CNN)提取,生成包含物體區域的特徵向量,這些視覺嵌入接著與文字嵌入共同輸入 Transformer 堆疊。
• 透過自注意力機制(self-attention),模型可以隱式地對齊文字中的詞彙和圖像中的區域資訊。
• 引入位置嵌入和段落嵌入(segment embeddings)來標示文本和視覺信息,輔助模型結合兩種模態。
• 訓練階段包括兩個視覺語言預訓練任務:隱藏詞語預測和句子-圖像匹配,用以學習語言和視覺內容的緊密關聯。
實驗成果:
• VisualBERT 在多個視覺語言基準數據集(如 VQA、VCR、NLVR2、Flickr30K)上表現優異,達到或超越當時最先進模型。
• 模型能有效地將語言結構語義與圖像區域對應起來,具備理解視覺內容及其語境的能力。
簡單比喻:
VisualBERT 像一個同時擁有「眼睛」和「耳朵」的智能,大腦內將聽到的文字和看到的圖像片段聯繫起來,理解語言所指涉的視覺世界。
總結:
VisualBERT 是將 BERT Transformer 架構擴展至視覺和語言融合的多模態模型,通過自注意力機制對齊圖像區域與文字,提高跨模態任務的理解與表現。