多模態融合(Multimodal Fusion)策略是指在多模態學習中,如何將來自不同模態(如文字、影像、音訊等)的資訊進行整合的各種方法。融合策略直接影響模型對複雜多源資料的理解與表現。根據融合時間點及方式,常見的融合策略分類如下:
1. 早期融合(Early Fusion)
- 在資料輸入階段就將不同模態的原始資料或低階特徵拼接或組合,
- 通常在單一模型中聯合學習整合特徵,
- 優點是能捕捉模態間的細微互動和依賴,
- 缺點是需要不同模態特徵間有相近的結構或尺度,否則處理較難且可能造成維度爆炸。
2. 中期融合(Mid-level Fusion)
- 在各模態經過部分獨立處理後,在模型中間層進行融合,
- 一般使用注意力機制、跨模態變換器等方法實現特徵交互,
- 平衡了早期融合的特徵互動和晚期融合的靈活性,
- 可捕捉低階和高階語義的跨模態聯繫,靈活性較高。
3. 晚期融合(Late Fusion)
- 各模態獨立訓練模型,最終在決策層面將結果融合,
- 融合方法包括加權平均、投票機制或再訓練一個簡單分類器等等,
- 優點是方便融合已有的強單模態模型,且對缺失模態有較好容錯能力,
- 缺點是無法在特徵層面捕捉跨模態細節互動。
4. 混合融合(Hybrid Fusion)
- 結合早期、中期和晚期的融合方法,
- 通過多階段或多層結合各種融合策略優勢,
- 模型結構複雜但能取得較好表現。
5. 其他分類
- 特徵級融合(Feature-level Fusion):將各模態的特徵投影到共享語義空間,合併後進行統一處理。
- 模型級融合(Model-level Fusion):在模型架構層面整合不同模態的特徵與輸出。
- 決策級融合(Decision-level Fusion):在最終輸出層融合各模態獨立決策,常用於集成學習。












