Late Fusion(晚期融合),也稱為決策層融合,是多模態學習中的一種融合策略。它的核心特點是在各模態經過獨立模型處理並生成各自的預測結果後,再將這些結果進行合併(融合)以得到最終決策。
Late Fusion 的運作流程:
- 獨立訓練模態模型:對每個模態(如圖像、文字、音訊)分別訓練獨立模型。
- 生成各自預測:每個模型根據自己的輸入模態產生預測結果(如分類概率分布)。
- 融合預測結果:通過投票(majority voting)、加權平均(weighted averaging)、置信度加權(confidence weighting)或訓練一個融合模型(如元學習器)等方法合併多個預測。
- 產生最終決策:融合後的結果作為最終輸出。
優點:
- 模組化強:不同模態的模型可以獨立設計、訓練與優化,方便維護與擴展。
- 彈性高:新增或移除模態比較容易,不需重新訓練整個多模態模型。
- 降低維度災難:避免早期融合將多模態特徵拼接帶來的高維計算與過擬合問題。
- 缺失模態容錯:即使部分模態不可用,只要其他模態模型正常可用,系統仍能做出決策。
缺點:
- 缺乏跨模態深度交互:因為模態獨立處理,可能無法捕捉模態間細緻且有利的互動信息。
- 性能限制:在需要強調模態間語義融合的任務上,晚期融合方法性能可能不及早期融合。
適用場景:
- 各模態數據來自完全不同源且差異較大,
- 需要靈活組合多模態模型的應用,
- 計算資源有限或訓練資料有限時。
總結來說,Late Fusion是一種先分別處理多模態數據並獨立產生預測,最後在決策層融合結果的策略,強調模組間解耦與靈活性,適用於模態差異大且需容錯多模態系統。