Coordinated Representation(協調表示)是多模態學習中一種表示學習策略,與Joint Representation(聯合表示)相對。其核心思想是:將不同模態的數據映射到各自的專屬表示空間中,但同時通過某種約束或優化方法,使這些不同空間的表示相互協調、保持語義一致性。
主要特點:
- 各模態獨立空間:每種模態(如語音、圖像、文本)有自己的表示空間,而非統一映射到同一空間。
- 協調機制:利用約束函數(如相似度最大化、對比學習、映射函數)使各模態的表徵在語義層面保持一致,使相對應的數據點在各空間中彼此“接近”。
- 適用性高:適合模態之間差異很大、難以直接映射到共同空間的情形。
- 容忍缺失模態:由於不強求所有模態必須同時存在,可方便處理缺失或不完整的模態數據。
與聯合表示的比較:
- Joint Representation強調所有模態融合到同一共享空間,適用於模態結構較相似的情況,但對缺失模態敏感。
- Coordinated Representation則允許模態保持獨立表示空間,並通過協調促使語義對齊,更適合異質、差異大的多模態數據。
技術實現:
- 利用對比學習(Contrastive Learning)或最大化投影空間中對應樣本的相似度。
- 構建映射函數網絡將一種模態空間的表徵映射到另一種模態空間,達到協同作用。
應用場景:
- 視覺和語言模態的跨域檢索、
- 多感官數據融合,
- 異構模態混合時的信息對齊和知識轉移。
簡言之,Coordinated Representation 是讓多個模態保持各自特質的同時,通過約束協調它們的表示,使不同模態在語義上對齊,提供一種靈活且強大的多模態表示學習方式。