許多年前已經有許多研究使用影像處理方法來生成文字,如圖像描述和視覺問答。傳統上,這類系統依賴於物體檢測網路作為視覺編碼器來捕捉視覺特徵,然後通過文字解碼器生成文字。鑑於大量現有文獻。這篇文章會專注於解決視覺任務的一種方法,即擴展預訓練的通用語言模型,使其能夠處理視覺訊號。本文大致將這些視覺語言模型(VLMs)分為四類:
將視覺訊息融入語言模型的一種直接方法是將圖像視為普通文字標記,並在文字和圖像的聯合表示序列上訓練模型。具體來說,圖像被分割成多個較小的區塊,每個區塊在輸入序列中被視為一個「標記」。VisualBERT(Li等人,2019年)將文字輸入和圖像區域同時輸入BERT,使其能夠通過自注意力機制發現圖像和文字之間的內部對齊關係。
為了更有效地將視覺資訊融入語言模型的不同層中,我們可以考慮一種特別設計的交叉注意力融合機制,以平衡文字生成能力和視覺資訊的混合。VisualGPT(Chen等人,2021年)採用了一種自適應的編碼器-解碼器注意力機制,以便使用少量的圖片-文字資料快速適應預訓練的語言模型。