基於人類反饋的強化學習(Reinforcement Learning from Human Feedback,簡稱RLHF)是一種機器學習技術,它結合了強化學習與人類提供的反饋,用以優化機器學習模型的行為,使其結果更符合人類目標、期望和偏好。其基本流程是先根據人類的回饋訓練一個「獎勵模型」,這個獎勵模型能預測模型輸出的質量好壞,再利用該獎勵模型作為強化學習中的獎勵函數,調整機器模型的策略,讓模型更傾向於生成得到人類高分的輸出。這樣就解決了傳統強化學習中難以直接設計精確獎勵函數的問題,尤其適合如大型語言模型等生成式人工智慧應用。
在人類回饋的收集上,通常會採用人類對多個候選答案的偏好排序,進而訓練獎勵模型。這種方法讓模型能在面對多種可能的答案時,選擇最符合人類喜好的回應。RLHF廣泛應用於自然語言處理、對話系統、文本生成及其他生成式AI領域,幫助提升模型在符合人類價值觀和審美判斷上的能力。
簡言之,RLHF就是讓人工智慧學習不只靠數據和預設目標,而是透過人類的實際反饋,來更好地指導模型行動的機器學習技術,提升模型的實用性和人性化。