ChatGPT 模型訓練：RLHF 技術解析

Raphael AI 科學家

更新於 2025/02/28發佈於 2024/03/01閱讀時間約 2 分鐘

ChatGPT 是 OpenAI 開發的大型語言模型，以其強大的生成能力和對話能力而聞名。 ChatGPT 的訓練過程主要分為兩個階段：預訓練和微調。

預訓練階段使用大量的文字數據來訓練模型，使其掌握語言的基本規律。 ChatGPT 的預訓練模型是 GPT-3，它是一個由 1750 億個參數組成的巨型語言模型。 GPT-3 的訓練數據包括了書籍、文章、程式碼等各種形式的文字。

微調階段使用特定領域的數據來調整模型，使其能夠更好地滿足特定需求。 ChatGPT 的微調過程使用了 RLHF（Reinforcement Learning from Human Feedback）技術。

RLHF 是一種利用人類反饋來強化學習的技術。在 ChatGPT 的微調過程中，人類評估人員會對模型生成的內容進行評分，並提供反饋。模型根據人類的反饋來調整自己的輸出，從而提高生成內容的質量。

RLHF 技術可以有效地提高 ChatGPT 的生成能力。在經過 RLHF 微調之後，ChatGPT 可以生成更加符合人類預期的內容，並且能夠更好地完成各種任務。

Reward function 示意

RLHF 的具體流程

RLHF 的具體流程如下：

模型生成內容。
人類評估人員對內容進行評分，並提供反饋。
模型根據反饋調整輸出。

RLHF 的優點

RLHF 具有以下優點：

可以有效地提高模型生成內容的質量。
可以使模型更好地滿足特定需求。
可以提高模型的魯棒性。

RLHF 的挑戰

RLHF 也存在一些挑戰：

需要大量的人工反饋。
人工反饋可能存在偏差。
可能會強化模型的偏見。

RLHF 的未來

RLHF 是一種很有潛力的技術，可以有效地提高語言模型的性能。隨著人工智慧技術的發展，RLHF 技術將會得到進一步的完善，並在更多領域得到應用。

總結

這樣的架構是從Reinforcement Learning(Q-Learning)所衍伸出來的，過去在這項技術的發展上通常會藉由設計一個適當的Rewared Function好讓模型推論出來的結果在反應到Action後會加分或是扣分的一個機制。有這樣的設計可以輕易地將模型的推論結果評估錯誤率，再將這個錯誤值透過back propagation的方法使模型在訓練過程中調整網路架構中的權重值。過去常看到一些大神在遊戲領域上有大量的應用，因為遊戲中有相當多的資訊能夠作為sensor input, 且遊戲的reward function也相對好設計。

有意思的地方是人工智慧的背後其實還是有不少的工人智慧，但幸運的是這些工人智慧我們是將其稱作資料前處理。

留言

留言分享你的想法！

Raphael AI 科學家

0會員

4內容數

寫作與AI相關的科普知識與相關技能，讓讀者們能快速地掌握科技新知並且運用在個人生活和工作領域，與AI合作創造價值 science knowledge / AI/ personal life and work and create value with AI.

Raphael AI 科學家的其他內容

2024/03/10

GAN：生成逼真假照片的秘密武器

現AI時代我們常見的生成影像是如何製作出來的，或許你已經開始熟悉AI“假臉”的風格。但由于現在網路上大量流傳的多數是以DALL-E或是Stable Diffiusion+幾個特定的LoRA所生成的結果。以至於人們越來越有識別真假照片的能力。但或許你不知道的是，早在幾年前純粹用GAN生成技術所產出的人

2024/03/10

GAN：生成逼真假照片的秘密武器

2024/02/26

有ChatGPT我還需要用Google翻譯嗎？ - ChatGPT如何幫助你學習其他語言

在這篇文章中，我們將探討如何利用ChatGPT這個強大的語言模型來學習其他語言，並比較其與Google翻譯的優缺點。無論你是想提升外語能力還是在跨文化交流中更加流暢，ChatGPT都是一個極具價值的工具。

2024/02/26

有ChatGPT我還需要用Google翻譯嗎？ - ChatGPT如何幫助你學習其他語言

2024/02/23

圖靈測試是什麼？人工智能的終極考驗？

圖靈測試是用於衡量機器是否能夠表現出與人類相等的智能的方法。本文介紹了圖靈測試的歷史、原理和評價，並探討了ChatGPT是否能通過該測試的問題

2024/02/23

圖靈測試是什麼？人工智能的終極考驗？

圖靈測試是用於衡量機器是否能夠表現出與人類相等的智能的方法。本文介紹了圖靈測試的歷史、原理和評價，並探討了ChatGPT是否能通過該測試的問題

看更多

你可能也想看

方格子 vocus 官方沙龍

沙龍介面新登場！自訂你的創作空間，讓好內容被看見

沙龍一直是創作與交流的重要空間，這次 vocus 全面改版了沙龍介面，就是為了讓好內容被好好看見！你可以自由編排你的沙龍首頁版位，新版手機介面也讓每位訪客都能更快找到感興趣的內容、成為你的支持者。改版完成後可以在社群媒體分享新版面，並標記 @vocus.official⁠ ♥️ ⁠

#vocus#方格子#方格子沙龍

2025/06/12

方格子 vocus 官方沙龍

沙龍介面新登場！自訂你的創作空間，讓好內容被看見

#vocus#方格子#方格子沙龍

2025/06/12

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

每年4月、5月都是最多稅要繳的月份，當然大部份的人都是有機會繳到「綜合所得稅」，只是相當相當多人還不知道，原來繳給政府的稅！可以透過一些有活動的銀行信用卡或電子支付來繳，從繳費中賺一點點小確幸！就是賺個１%~2%大家也是很開心的，因為你們把沒回饋變成有回饋，就是用卡的最高境界所得稅線上申報

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

Learn AI 不 BI

AI說書 - Prompt Engineering - 14

我們人類和ChatGPT的對話技巧也是需要學習的，有鑑於此，我想要一天分享一點「和ChatGPT對話的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧我們在AI說書 - Prompt Engineering - 13中，提及Prompt Engine

#AI#ai#PromptEngineering

2024/06/20

Learn AI 不 BI

AI說書 - Prompt Engineering - 14

#AI#ai#PromptEngineering

2024/06/20

Learn AI 不 BI

AI說書 - Prompt Engineering - 11

我們人類和ChatGPT的對話技巧也是需要學習的，有鑑於此，我想要一天分享一點「和ChatGPT對話的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。人工智慧的未來是以使用者為中心，個人在與人工智慧系統的互動中扮演著越來越重要的角色。預計這種趨勢將催生被

#AI#ai#PromptEngineering

2024/06/18

Learn AI 不 BI

AI說書 - Prompt Engineering - 11

#AI#ai#PromptEngineering

2024/06/18

Learn AI 不 BI

AI說書 - Prompt Engineering - 6

我們人類和ChatGPT的對話技巧也是需要學習的，有鑑於此，我想要一天分享一點「和ChatGPT對話的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。針對Generative AI、Foundation Model、Large Language Mode

#AI#ai#PromptEngineering

2024/06/12

Learn AI 不 BI

AI說書 - Prompt Engineering - 6

#AI#ai#PromptEngineering

2024/06/12

Learn AI 不 BI

AI說書 - Prompt Engineering - 3

我們人類和ChatGPT的對話技巧也是需要學習的，有鑑於此，我想要一天分享一點「和ChatGPT對話的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在AI說書 - Prompt Engineering - 2中，我們已經以文字敘述各種AI的範疇與其思想

#AI#ai#PromptEngineering

2024/06/06

Learn AI 不 BI

AI說書 - Prompt Engineering - 3

#AI#ai#PromptEngineering

2024/06/06

程式輕鬆玩

ChatGPT：人工智慧的對話夥伴

ChatGPT（全名：聊天生成預訓練轉換器）是一個由 OpenAI 開發的人工智慧聊天機器人程式。它於 2022 年 11 月推出，使用了基於 GPT-3.5、GPT-4 和 GPT-4o 架構的大型語言模型，並以強化學習進行訓練。

2024/05/15

2024/05/15

筆記-曲博談AI模型.群聯-24.05.05

筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型三個步驟: 1.預訓練，訓練一次要用幾萬顆處理器、訓練時間要1個月，ChatGPT訓練一次的成本為1000萬美金。 2.微調(

2024/05/06

每日發車

筆記-曲博談AI模型.群聯-24.05.05

2024/05/06

技術PM路易斯的沙龍

情緒勒索你的AI來得到最佳的結果

這陣子使用AI模型，還有參考國內外一些喜歡玩語言模型的同好發文，一個很有趣的結論就是，有時候把大型語言模型(尤其ChatGPT)當作一個人來溝通，會得到比較好的結果，這的確是非常反直覺的，也就是說很多時候ChatGPT耍懶不肯工作的時候，你用加油打氣，或是情緒勒索的方法，確實是可以得到比較好的結果。

#chatgpt#LLM#AI

2024/03/31