知己知彼,百戰百勝,一起看看有什麼新發表!
介紹本週海選的五篇 AI paper(2024 年 3 月17~23 日),包括大模型推理優化、強化學習改進、記憶系統創新、3D 生成技術突破,以及 LLM 訓練策略的新發現。
DeepSeek 模型:開源 LLM 的新高度
重點:DeepSeek-V3 和 DeepSeek-R1 以更低資源需求達到 SOTA(State-of-the-Art)性能,技術創新有:
- 多頭潛在注意力(MLA):壓縮注意力機制,減少記憶體使用。
- 專家混合技術(MoE):細分專家模組,提高計算效率。
- 強化學習調優(GRPO):減少 GPU 記憶體占用,提升推理能力。
- 後訓練強化學習:減少監督微調依賴,增強推理與語言一致性。
DeepSeek 以開源 LLM 如何透過技術創新縮小與封閉模型(如 GPT-4)的性能差距,為 AI 生態系統帶來具競爭力的選擇。
論文連結:https://arxiv.org/html/2503.11486v1
DAPO:提升 LLM 強化學習訓練的全新方法
重點:DAPO 是一個開源、可擴展的大規模 RL 系統,專注於提升 LLM 的 Chain-of-Thought(CoT)推理能力,核心:
- Clip-Higher 技術:防止策略熵崩潰,提高模型探索能力。
- 逐 Token 策略梯度:讓每一步推理都更有價值,而非僅關注最終結果。
- 避免冗長回答:透過 Masking 或懲罰機制控制輸出長度,防止無意義的重複。
- 在數學測試集 AIME 2024 上達到 50% 準確率,優於 DeepSeek-R1,且訓練成本更低。
DAPO 顯示 LLM 如何透過強化學習來優化推理能力,避免過度簡單化的獎勵機制導致模型學習到錯誤策略,可幫助提升 AI 可解釋性與應用價值。
論文連結:https://arxiv.org/html/2503.14476v1
階層式獎勵模型(HRM):解決 LLM 推理中的「獎勵駭客」問題
重點:LLM 在推理時可能會因為錯誤的獎勵機制學習到錯誤的策略,HRM 提供了解決方案:
- 多步獎勵評估:不像傳統方法(PRM)僅針對單步評分,HRM 會考量前後文,使推理更連貫。
- 解決「獎勵駭客行為」:PRM 可能會讓模型選擇短視近利的策略,而 HRM 透過長期評估機制來減少這種偏差。
- 階層式節點壓縮(HNC):透過節點合併技術,減少蒙地卡羅樹搜索(MCTS)的推理軌跡中提升數據多樣性與訓練效率。
- 在 MATH500、GSM8K 這類複雜數學與推理任務上表現優異,比傳統獎勵模型更穩定。
HRM 讓 AI 推理更加準確,解決 LLM 為了短期獎勵而犧牲長期思考的問題,是數學、編程與邏輯推理任務中的重要角色。
論文連結:https://arxiv.org/html/2503.13551v2
Agentic Memory:讓 LLM 擁有長期記憶的全新方法
重點:LLM 目前主要依賴短期上下文,難以建立長期記憶,Agentic Memory(A-MEM)解決了這個問題:
- Zettelkasten 策略:A-MEM 會自動建立、標註、關聯記憶節點,形成一個動態更新的知識網絡。
- 記憶進化機制:當新的資訊進入時,A-MEM 會自動更新舊記憶,使知識關聯性更強。
- 多跳推理增強:在複雜對話或長時間推理中,A-MEM 的性能優於傳統記憶方法(如 MemGPT)。
- 降低計算成本:A-MEM 會選擇最相關的記憶檢索,減少 Token 消耗,提高效率。
A-MEM 讓 AI 代理(如虛擬助理)能夠累積知識,適應長期變化的情境,而不只是基於當前上下文做出決策,更邁向真正智慧 AI 。
論文連結:https://arxiv.org/html/2502.12110v3
DeepMesh:AI 生成高品質 3D 模型的新突破
重點:目前的 3D 生成技術通常無法產生符合藝術標準的拓撲結構,DeepMesh 針對這一問題進行了優化:
- 高效網格 Token 化:顯著壓縮數據,保留幾何細節,提高生成效率。
- 美觀且可編輯的 3D 拓撲結構:相較於現有方法(如 MeshAnythingv2),DeepMesh 生成的 3D 模型更加精細且便於後續編輯。
- 強化學習與人類反饋:透過 Direct Preference Optimization(DPO),根據人類標註進行微調,使生成結果更符合審美標準。
- 支持大規模 3D 生成,適用於遊戲、動畫、建築設計等領域。
DeepMesh 顯著縮小 AI 生成 3D 模型與人類藝術家之間的差距,未來可應用於 VR、AR、元宇宙、遊戲開發與工業設計,為 3D 生成領域帶來重要進展!
論文連結:https://arxiv.org/html/2503.15265v1
心得:
- LLM 的推理能力與強化學習策略不斷優化(DeepSeek、DAPO、HRM)。
- AI 記憶系統正在進步,使 LLM 能累積知識並進行更深入的思考(A-MEM)。
- AI 生成 3D 模型的質量提升,未來可應用於更多創意與工業領域(DeepMesh)。