奢華與平價教材一起拿來學，C-RLFT，Openchat's tricks for finetune

更新於 2023/11/30發佈於 2023/11/30閱讀時間約 7 分鐘

Starling-LM-7B近來火燙，有使用到本篇的C-RLFT技術，基於此基礎上可以把7B小模型的微調成績做到頂尖，一起來理解OpenChat 的 C-RLFT技術是如何實現的，所能產生的效果為何，以及探索為何能達到這樣好的成績。

論文主要貢獻:

GPT-4回答素質明顯比GPT-3.5來得高，如下圖所示，但是GPT-4的時間與運算成本比GPT-3.5高出不少，同樣的成本與時間花下去，能取得的教材數量懸殊。有沒有辦法充分運用不同等級的教材，讓Model能取得更佳的學習成果，且不會被品質較差的教材拖累學習表現?

GPT-4 的對話品質分布比GPT-3.5好很多

本篇提出這個問題的解法，將GPT-3.5 / GPT-4 訓練資料做條件強化學習(C-RL

本篇內容共 2807 字、0 則留言，僅發佈於人工智慧宇宙你目前無法檢視以下內容，可能因為尚未登入，或沒有該房間的查看權限。

留言

留言分享你的想法！

無限智慧學院的沙龍

95會員

128內容數

帶你用上帝視角，針對市面上具有高度價值的影片/論文/書籍，用東方取象，與西方邏輯辯證的角度同時出發，跟著我一起來探討宇宙萬事萬物的本質，隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷，近期對於人工智慧，東方易經，西方辯證邏輯，還有佛法向內求有深度興趣。

2024/02/28

這次要介紹的這篇，使用Mask-LM的生成方式，可以達到最頂尖的FID/FVD分數，取得超越Diffusion Model的生成品質，並兼顧了生成速度，讓我們一起從MAGVIT開始，逐步理解到MAGVIT-V2，相信能讓對於最新影像生成領域有興趣的讀者，感到收穫滿滿。

2024/02/28

2024/02/20

對於天氣的精密掌握，不僅得以改善各種生存條件，還能藉此訂定各種軍事策略，對於各種地緣政治紛爭的此刻，有其重大意義，於是各國對於快速準確的天氣預測技術，皆十分有興趣。本文介紹Google Research 的研究利用AI來預測天氣，誤差可以勝過傳統超級計算機的估算，讓我們一起看看是怎麼做到的。

2024/02/20

2024/02/10

隨著生成式AI不斷的推陳出新，對於能有效壓縮這些豐富且大量內容的技術，變得至關重要，影響著傳輸速度與執行速度，本文的壓縮架構，能夠有效地做成專用IC，在同樣的畫質水準下，甚至能夠達成JPEG 1/3的壓縮後容量，此方法可應用在各種3D NeRF生成作品上面，各種VR與3D生成技術都必然會用到。

2024/02/10