目前知名的多模態預訓練模型主要包括以下幾種:
- CLIP:由OpenAI提出,採用對比學習方法,同時訓練一個視覺編碼器和一個語言編碼器,使模型能將影像與其對應的文字描述關聯起來,是多模態學習的基礎突破。wbolt
- LLaVA:結合強大的視覺編碼器和大型語言模型,採用兩階段訓練,第一階段為大規模多模態預訓練,第二階段是指令微調,以提升對視覺與語言的理解和交互能力。
- GPT-4多模態版:OpenAI的多模態GPT-4結合了語言和視覺能力,是當前多模態大型模型的代表。
- PaLI:谷歌的大型多模態模型,使用10B圖文數據進行訓練,擁有17B模型參數。
- BEiT-3:微軟提出的多模態模型,基於統一掩碼任務訓練,模型參數約10B。
- Flamingo:DeepMind的多模態模型,具備80B參數,能實現強大的多模態上下文學習。
- M6:阿里巴巴和清華大學合作的多模態預訓練模型,基於共享Transformer架構,支持多模態理解和生成。
- Unified-IO:AllenAI提出的跨多領域、多模態任務的統一架構。cips-ssatt23.bcebos
- ImageBind (MetaAI):將視覺作為中心,通過對比學習連接六種不同模態,支持多模態融合。
這些模型大多採用自監督學習和Transformer架構,以大量無標註的多模態數據進行預訓練,目標是同時實現跨模態理解與生成,並在多種下游任務中表現優異。
總結來說,代表性的多模態預訓練模型包括CLIP、LLaVA、GPT-4多模態版、PaLI、BEiT-3、Flamingo、M6、Unified-IO及ImageBind等。