本文介紹了一種名為Diffusion Model-Augmented Behavioral Cloning,(簡稱 DBC)的新型模仿學習框架。這個框架旨在結合建模條件機率和聯合機率的優勢,以改善模仿學習的效能。
模仿學習的目標是從專家示範中學習政策,而無需與環境互動。現有的不需要環境互動的模仿學習方法通常將專家分佈建模為條件機率 p(a|s)(如行為克隆,BC)或聯合機率 p(s,a)。雖然使用 BC 建模條件機率較為簡單,但通常難以通用化。而建模聯合機率雖然可以改善通用化效能,但推理過程往往耗時,且模型可能遭受流形過擬合問題。DBC 框架採用擴散模型來建模專家行為,並學習一個政策來同時最佳化 BC 損失(條件機率)和作者提出的擴散模型損失(聯合機率)。具體來說,DBC 包含以下步驟:
BC 損失定義為:
L_BC = E[(s,a)~D, â~π(s)][d(a, â)]其中 d(·,·) 表示動作對之間的距離度量。
擴散模型損失包括代理擴散損失和專家擴散損失:
L_diff^agent = E[s~D, â~π(s)][||φ(s, â, n) - ε||²]
L_diff^expert = E[(s,a)~D][||φ(s, a, n) - ε||²]
最終的擴散模型損失為:
L_DM = E[(s,a)~D, â~π(s)][max(L_diff^agent - L_diff^expert, 0)]
總損失函數為:
L_total = L_BC + λL_DM其中 λ 是一個係數,用於平衡兩個損失項的重要性。
作者在各種連續控制任務中評估了 DBC 的效能,包括導航、機器人手臂操作、靈巧操作和運動控制。實驗結果表明,DBC 在所有任務中都優於或達到與基本方法相當的效能。主要的實驗結果包括:
此外,作者還進行了一系列消融實驗和分析,以驗證 DBC 的設計選擇和效能:
作者還討論了 BC 損失和擴散模型損失之間的關係。從訓練過程來看,同時最佳化這兩個目標可以使學習到的政策更接近最佳政策。從理論角度來看,BC 損失可以近似為最小化前向 KL 散度,而擴散模型損失可以近似為最小化反向 KL 散度。這兩種散度的結合可以在模式覆蓋和樣本質量之間取得平衡。總的來說,DBC 框架通過結合條件機率和聯合機率建模的優勢,在各種連續控制任務中展現出優秀的效能。它不僅能夠有效地預測給定狀態下的動作,還能更好地泛化到未見過的狀態,同時減輕了流形過擬合問題。然而,DBC 也存在一些限制。首先,它是為了從專家軌跡中學習而設計的,無法從代理軌跡中學習。其次,DBC 的效能可能受到專家示範質量的影響。最後,雖然 DBC 在連續控制任務中表現出色,但在離散動作空間或更複雜的任務中的效能還有待進一步研究。未來的研究方向可能包括:
總結來說,DBC為模仿學習領域提供了一個新的研究方向,通過結合條件機率和聯合機率建模的優勢,在多個具有挑戰性的連續控制任務中取得了優秀的效能。這種方法不僅提高了模型的一般化能力,還緩解了流形過擬合問題,為未來的研究和應用開闢了新的可能性。
Reference