模仿學習

更新於 2024/12/08閱讀時間約 6 分鐘

本文介紹了一種名為Diffusion Model-Augmented Behavioral Cloning,(簡稱 DBC)的新型模仿學習框架。這個框架旨在結合建模條件機率和聯合機率的優勢,以改善模仿學習的效能。


模仿學習的目標是從專家示範中學習政策,而無需與環境互動。現有的不需要環境互動的模仿學習方法通常將專家分佈建模為條件機率 p(a|s)(如行為克隆,BC)或聯合機率 p(s,a)。雖然使用 BC 建模條件機率較為簡單,但通常難以通用化。而建模聯合機率雖然可以改善通用化效能,但推理過程往往耗時,且模型可能遭受流形過擬合問題。DBC 框架採用擴散模型來建模專家行為,並學習一個政策來同時最佳化 BC 損失(條件機率)和作者提出的擴散模型損失(聯合機率)。具體來說,DBC 包含以下步驟:

  1. 使用擴散模型對專家的狀態-動作對進行建模。
  2. 訓練一個政策網路,同時最佳化 BC 損失和擴散模型損失。


BC 損失定義為:

L_BC = E[(s,a)~D, â~π(s)][d(a, â)]其中 d(·,·) 表示動作對之間的距離度量。


擴散模型損失包括代理擴散損失和專家擴散損失:

L_diff^agent = E[s~D, â~π(s)][||φ(s, â, n) - ε||²]

L_diff^expert = E[(s,a)~D][||φ(s, a, n) - ε||²]


最終的擴散模型損失為:

L_DM = E[(s,a)~D, â~π(s)][max(L_diff^agent - L_diff^expert, 0)]


總損失函數為:

L_total = L_BC + λL_DM其中 λ 是一個係數,用於平衡兩個損失項的重要性。


作者在各種連續控制任務中評估了 DBC 的效能,包括導航、機器人手臂操作、靈巧操作和運動控制。實驗結果表明,DBC 在所有任務中都優於或達到與基本方法相當的效能。主要的實驗結果包括:

  1. 在 MAZE 環境中,DBC 達到了 95.4% 的成功率,與擴散政策(95.5%)相當,優於 BC(92.1%)和隱式 BC(78.3%)。
  2. 在 FETCHPICK 任務中,DBC 的成功率為 97.5%,明顯優於其他方法(BC:91.6%,隱式 BC:69.4%,擴散政策:83.9%)。
  3. 在 HANDROTATE 環境中,DBC(60.1%)與擴散政策(61.7%)表現相當,優於 BC(57.5%)和隱式 BC(13.8%)。
  4. 在 CHEETAH 和 WALKER 環境中,DBC 分別達到了 4909.5 和 7034.6 的回報,優於或與 BC 相當。
  5. 在 ANTREACH 任務中,DBC 的成功率為 70.1%,優於所有基本方法。


此外,作者還進行了一系列消融實驗和分析,以驗證 DBC 的設計選擇和效能:

  1. 比較不同生成模型:作者將擴散模型與能量基礎模型(EBM)、變分自動編碼器(VAE)和生成對抗網路(GAN)進行了比較。結果顯示,擴散模型在大多數情況下都能達到最佳效能。
  2. 擴散模型損失係數 λ 的影響:實驗表明,適當選擇 λ 值可以平衡 BC 損失和擴散模型損失,從而獲得最佳效能。
  3. 歸一化項的效果:作者驗證了使用專家擴散損失進行歸一化的有效性,結果顯示歸一化可以提高模型的效能。
  4. 流形過擬合實驗:作者設計了一個實驗來驗證 DBC 在處理低維流形上的高維數據時的效能,結果表明 DBC 能夠有效地克服流形過擬合問題。
  5. 泛化實驗:在 FETCHPICK 環境中,作者通過向初始狀態和目標位置注入不同程度的雜訊來評估模型的泛化能力。結果顯示,DBC 在不同雜訊水平下都能保持較好的效能,優於其他基本方法。


作者還討論了 BC 損失和擴散模型損失之間的關係。從訓練過程來看,同時最佳化這兩個目標可以使學習到的政策更接近最佳政策。從理論角度來看,BC 損失可以近似為最小化前向 KL 散度,而擴散模型損失可以近似為最小化反向 KL 散度。這兩種散度的結合可以在模式覆蓋和樣本質量之間取得平衡。總的來說,DBC 框架通過結合條件機率和聯合機率建模的優勢,在各種連續控制任務中展現出優秀的效能。它不僅能夠有效地預測給定狀態下的動作,還能更好地泛化到未見過的狀態,同時減輕了流形過擬合問題。然而,DBC 也存在一些限制。首先,它是為了從專家軌跡中學習而設計的,無法從代理軌跡中學習。其次,DBC 的效能可能受到專家示範質量的影響。最後,雖然 DBC 在連續控制任務中表現出色,但在離散動作空間或更複雜的任務中的效能還有待進一步研究。未來的研究方向可能包括:

  1. 擴展 DBC 以納入代理數據,這可能允許在可以與環境互動時進行改進。
  2. 探索 DBC 在更複雜任務和不同類型動作空間中的應用。
  3. 研究如何進一步提高 DBC 的樣本效率和計算效率。
  4. 調查 DBC 在處理具有多模態行為的任務時的效能。
  5. 探索將 DBC 與其他模仿學習和強化學習方法結合的可能性。


總結來說,DBC為模仿學習領域提供了一個新的研究方向,通過結合條件機率和聯合機率建模的優勢,在多個具有挑戰性的連續控制任務中取得了優秀的效能。這種方法不僅提高了模型的一般化能力,還緩解了流形過擬合問題,為未來的研究和應用開闢了新的可能性。


Reference

  1. https://arxiv.org/abs/2302.13335
avatar-img
0會員
31內容數
心繫正體中文的科學家,立志使用正體中文撰寫文章。 此沙龍預計涵蓋各項資訊科技知識分享與學習心得
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
風清揚的沙龍 的其他內容
本文簡介 3GPP 在 Release 18 與 Release 19中引入人工智慧/機器學習(AI/ML)功能到無線電介面、無線電接取網路和核心網路的標準化工作。
MLIR是什麼以及使用MLIR的優點
tcpdump -i <網路介面> 捕捉流經網路介面的通訊。
Raspberry Pi 5 不再支援 raspi-gpio 指令,因此在Raspberry Pi 5 上執行 GPIO 操作指令 raspi-gpio 時,會顯示以下訊息指示「使用 pinctrl」
最近各組織正急於整合大型語言模型(LLMs)以改善其線上用戶體驗。這使它們面臨網路LLM攻擊的風險,這些攻擊利用模型對攻擊者無法直接存取的資料、API或使用者資訊的存取權。
協調型同時定位與建構地圖(C-SLAM)是在室內、地下、水中等無外部定位系統的環境中,多機器人協同運作的必須要素。傳統的C-SLAM系統可分為集中型和分散型兩類。集中型系統將所有機器人的地圖資料集中到遠端基地站,計算全域SLAM估計。
本文簡介 3GPP 在 Release 18 與 Release 19中引入人工智慧/機器學習(AI/ML)功能到無線電介面、無線電接取網路和核心網路的標準化工作。
MLIR是什麼以及使用MLIR的優點
tcpdump -i <網路介面> 捕捉流經網路介面的通訊。
Raspberry Pi 5 不再支援 raspi-gpio 指令,因此在Raspberry Pi 5 上執行 GPIO 操作指令 raspi-gpio 時,會顯示以下訊息指示「使用 pinctrl」
最近各組織正急於整合大型語言模型(LLMs)以改善其線上用戶體驗。這使它們面臨網路LLM攻擊的風險,這些攻擊利用模型對攻擊者無法直接存取的資料、API或使用者資訊的存取權。
協調型同時定位與建構地圖(C-SLAM)是在室內、地下、水中等無外部定位系統的環境中,多機器人協同運作的必須要素。傳統的C-SLAM系統可分為集中型和分散型兩類。集中型系統將所有機器人的地圖資料集中到遠端基地站,計算全域SLAM估計。
你可能也想看
Google News 追蹤
Thumbnail
本文探討了複利效應的重要性,並藉由巴菲特的投資理念,說明如何選擇穩定產生正報酬的資產及長期持有的核心理念。透過定期定額的投資方式,不僅能減少情緒影響,還能持續參與全球股市的發展。此外,文中介紹了使用國泰 Cube App 的便利性及低手續費,幫助投資者簡化投資流程,達成長期穩定增長的財務目標。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Bidirectional Encoder Representations from Transformers (BERT) 只有 Encoder Layer,沒有 D
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在某些情況下,別人提供的 Pretrained Transformer Model 效果不盡人意,可能會想要自己做 Pretrained Model,但是這會耗費大量運
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型,並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing,現
Thumbnail
本系列將討論 LLM 時代中,分散 ML workload 的各種方法。作為系列的第一篇,我們將提及 High-level 的概論,譬如分散式訓練的各種切法、Model Parallelism 的相依問題,以及改善 Network Topology 等課題。
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 原始 Transformer 架構的 Transduction Process 使用編碼器堆疊、解碼器堆疊而用所有模型參數來表示參考序列,我們將該輸出序列稱為參考。
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 下游任務是一個 Fine-Tuned 的 Transformer 任務,它從預先訓練的 Transformer 模型繼承模型和參數,故,下游任務是運行微調任務的預訓練模
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer模型驅動的人工智慧正在將無所不在的一切連接起來,機器直接與其他機器通訊,人工智慧驅動的物聯網訊號無需人工干預即可觸發自動決策。 自然語言處理演算法
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 20中,闡述GPT模型的Supervised and Unsupervised觀點,接著一樣引述書籍:Transformers f
Thumbnail
本文探討了複利效應的重要性,並藉由巴菲特的投資理念,說明如何選擇穩定產生正報酬的資產及長期持有的核心理念。透過定期定額的投資方式,不僅能減少情緒影響,還能持續參與全球股市的發展。此外,文中介紹了使用國泰 Cube App 的便利性及低手續費,幫助投資者簡化投資流程,達成長期穩定增長的財務目標。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Bidirectional Encoder Representations from Transformers (BERT) 只有 Encoder Layer,沒有 D
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在某些情況下,別人提供的 Pretrained Transformer Model 效果不盡人意,可能會想要自己做 Pretrained Model,但是這會耗費大量運
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型,並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing,現
Thumbnail
本系列將討論 LLM 時代中,分散 ML workload 的各種方法。作為系列的第一篇,我們將提及 High-level 的概論,譬如分散式訓練的各種切法、Model Parallelism 的相依問題,以及改善 Network Topology 等課題。
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 原始 Transformer 架構的 Transduction Process 使用編碼器堆疊、解碼器堆疊而用所有模型參數來表示參考序列,我們將該輸出序列稱為參考。
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 下游任務是一個 Fine-Tuned 的 Transformer 任務,它從預先訓練的 Transformer 模型繼承模型和參數,故,下游任務是運行微調任務的預訓練模
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer模型驅動的人工智慧正在將無所不在的一切連接起來,機器直接與其他機器通訊,人工智慧驅動的物聯網訊號無需人工干預即可觸發自動決策。 自然語言處理演算法
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 20中,闡述GPT模型的Supervised and Unsupervised觀點,接著一樣引述書籍:Transformers f