Reinforcement Learning from Human Feedback(RLHF)是訓練大型語言模型(如 ChatGPT)的一種方法,通過人類反饋引導模型更好地理解和回應。其流程主要包含三個階段:
RLHF 流程步驟
1. 預訓練語言模型(Pretraining) 使用大規模文本資料對通用語言模型進行預訓練,學習語言基本知識和語言結構。2. 訓練獎勵模型(Reward Model Training)
• 收集人類標註的數據,例如多個模型輸出候選答案由人類評比哪個更好。
• 訓練一個獎勵模型,學習根據人類偏好為模型輸出分數(reward)。
• 獎勵模型通常是個語言模型,但輸出的是一個實數值而非文本。
3. 強化學習微調(Fine-tuning with Reinforcement Learning)
• 使用訓練好的獎勵模型作為評價標準,對原始語言模型進行強化學習優化。
• 通過演算法如 Proximal Policy Optimization(PPO),更新模型參數以生成更優質、符合人類偏好的回答。
簡要比喻:
• 初始模型像學生,先讀很多書(預訓練)。
• 人類老師給予評分或比較(獎勵模型訓練)。
• 學生根據老師評價不斷改進寫作技巧(強化學習微調),學會寫出更符合老師期望的文章。
總結:
RLHF 是用來將機器學習模型「對齊」到人類價值觀和偏好,使其輸出更實用、準確和合宜的有效方法。這種流程結合了大規模預訓練、人類專家評估,以及強化學習優化,已成為大型語言模型成功的關鍵。