RLHF
含有「RLHF」共 1 篇內容
全部內容
發佈日期由新至舊
Raphael AI 科學家
2024/03/01
ChatGPT 模型訓練:RLHF 技術解析
ChatGPT 是 OpenAI 開發的大型語言模型,以其強大的生成能力和對話能力而聞名。 ChatGPT 的訓練過程主要分為兩個階段:預訓練和微調。 微調使用了 RLHF(Reinforcement Learning from Human Feedback)技術,可以有效地提高模型生成內容的質量。
#
ChatGPT
#
RLHF
#
預訓練
3
留言