ChatGPT 模型訓練:RLHF 技術解析

更新於 發佈於 閱讀時間約 2 分鐘

ChatGPT 是 OpenAI 開發的大型語言模型,以其強大的生成能力和對話能力而聞名。 ChatGPT 的訓練過程主要分為兩個階段:預訓練微調

預訓練階段使用大量的文字數據來訓練模型,使其掌握語言的基本規律。 ChatGPT 的預訓練模型是 GPT-3,它是一個由 1750 億個參數組成的巨型語言模型。 GPT-3 的訓練數據包括了書籍、文章、程式碼等各種形式的文字。

微調階段使用特定領域的數據來調整模型,使其能夠更好地滿足特定需求。 ChatGPT 的微調過程使用了 RLHF(Reinforcement Learning from Human Feedback)技術。

RLHF 是一種利用人類反饋來強化學習的技術。 在 ChatGPT 的微調過程中,人類評估人員會對模型生成的內容進行評分,並提供反饋。 模型根據人類的反饋來調整自己的輸出,從而提高生成內容的質量。

RLHF 技術可以有效地提高 ChatGPT 的生成能力。 在經過 RLHF 微調之後,ChatGPT 可以生成更加符合人類預期的內容,並且能夠更好地完成各種任務。

Reward function 示意

Reward function 示意

RLHF 的具體流程

RLHF 的具體流程如下:

  1. 模型生成內容。
  2. 人類評估人員對內容進行評分,並提供反饋。
  3. 模型根據反饋調整輸出。

RLHF 的優點

RLHF 具有以下優點:

  • 可以有效地提高模型生成內容的質量。
  • 可以使模型更好地滿足特定需求。
  • 可以提高模型的魯棒性。

RLHF 的挑戰

RLHF 也存在一些挑戰:

  • 需要大量的人工反饋。
  • 人工反饋可能存在偏差。
  • 可能會強化模型的偏見。

RLHF 的未來

RLHF 是一種很有潛力的技術,可以有效地提高語言模型的性能。 隨著人工智慧技術的發展,RLHF 技術將會得到進一步的完善,並在更多領域得到應用。

總結

這樣的架構是從Reinforcement Learning(Q-Learning)所衍伸出來的,過去在這項技術的發展上通常會藉由設計一個適當的Rewared Function好讓模型推論出來的結果在反應到Action後會加分或是扣分的一個機制。有這樣的設計可以輕易地將模型的推論結果評估錯誤率,再將這個錯誤值透過back propagation的方法使模型在訓練過程中調整網路架構中的權重值。過去常看到一些大神在遊戲領域上有大量的應用,因為遊戲中有相當多的資訊能夠作為sensor input, 且遊戲的reward function也相對好設計。

有意思的地方是人工智慧的背後其實還是有不少的工人智慧,但幸運的是這些工人智慧我們是將其稱作資料前處理。





留言
avatar-img
留言分享你的想法!
avatar-img
Raphael AI 科學家
0會員
4內容數
寫作與AI相關的科普知識與相關技能,讓讀者們能快速地掌握科技新知並且運用在個人生活和工作領域,與AI合作創造價值 science knowledge / AI/ personal life and work and create value with AI.
Raphael AI 科學家的其他內容
2024/03/10
現AI時代我們常見的生成影像是如何製作出來的,或許你已經開始熟悉AI“假臉”的風格。但由于現在網路上大量流傳的多數是以DALL-E或是Stable Diffiusion+幾個特定的LoRA所生成的結果。以至於人們越來越有識別真假照片的能力。但或許你不知道的是,早在幾年前純粹用GAN生成技術所產出的人
Thumbnail
2024/03/10
現AI時代我們常見的生成影像是如何製作出來的,或許你已經開始熟悉AI“假臉”的風格。但由于現在網路上大量流傳的多數是以DALL-E或是Stable Diffiusion+幾個特定的LoRA所生成的結果。以至於人們越來越有識別真假照片的能力。但或許你不知道的是,早在幾年前純粹用GAN生成技術所產出的人
Thumbnail
2024/02/26
在這篇文章中,我們將探討如何利用ChatGPT這個強大的語言模型來學習其他語言,並比較其與Google翻譯的優缺點。無論你是想提升外語能力還是在跨文化交流中更加流暢,ChatGPT都是一個極具價值的工具。
Thumbnail
2024/02/26
在這篇文章中,我們將探討如何利用ChatGPT這個強大的語言模型來學習其他語言,並比較其與Google翻譯的優缺點。無論你是想提升外語能力還是在跨文化交流中更加流暢,ChatGPT都是一個極具價值的工具。
Thumbnail
2024/02/23
圖靈測試是用於衡量機器是否能夠表現出與人類相等的智能的方法。本文介紹了圖靈測試的歷史、原理和評價,並探討了ChatGPT是否能通過該測試的問題
Thumbnail
2024/02/23
圖靈測試是用於衡量機器是否能夠表現出與人類相等的智能的方法。本文介紹了圖靈測試的歷史、原理和評價,並探討了ChatGPT是否能通過該測試的問題
Thumbnail
看更多
你可能也想看
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - Prompt Engineering - 13中,提及Prompt Engine
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - Prompt Engineering - 13中,提及Prompt Engine
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 人工智慧的未來是以使用者為中心,個人在與人工智慧系統的互動中扮演著越來越重要的角色。預計這種趨勢將催生被
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 人工智慧的未來是以使用者為中心,個人在與人工智慧系統的互動中扮演著越來越重要的角色。預計這種趨勢將催生被
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 針對Generative AI、Foundation Model、Large Language Mode
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 針對Generative AI、Foundation Model、Large Language Mode
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在AI說書 - Prompt Engineering - 2中,我們已經以文字敘述各種AI的範疇與其思想
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在AI說書 - Prompt Engineering - 2中,我們已經以文字敘述各種AI的範疇與其思想
Thumbnail
ChatGPT(全名:聊天生成預訓練轉換器)是一個由 OpenAI 開發的人工智慧聊天機器人程式。它於 2022 年 11 月推出,使用了基於 GPT-3.5、GPT-4 和 GPT-4o 架構的大型語言模型,並以強化學習進行訓練。
Thumbnail
ChatGPT(全名:聊天生成預訓練轉換器)是一個由 OpenAI 開發的人工智慧聊天機器人程式。它於 2022 年 11 月推出,使用了基於 GPT-3.5、GPT-4 和 GPT-4o 架構的大型語言模型,並以強化學習進行訓練。
Thumbnail
筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
Thumbnail
筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
Thumbnail
這陣子使用AI模型,還有參考國內外一些喜歡玩語言模型的同好發文,一個很有趣的結論就是,有時候把大型語言模型(尤其ChatGPT)當作一個人來溝通,會得到比較好的結果,這的確是非常反直覺的,也就是說很多時候ChatGPT耍懶不肯工作的時候,你用加油打氣,或是情緒勒索的方法,確實是可以得到比較好的結果。
Thumbnail
這陣子使用AI模型,還有參考國內外一些喜歡玩語言模型的同好發文,一個很有趣的結論就是,有時候把大型語言模型(尤其ChatGPT)當作一個人來溝通,會得到比較好的結果,這的確是非常反直覺的,也就是說很多時候ChatGPT耍懶不肯工作的時候,你用加油打氣,或是情緒勒索的方法,確實是可以得到比較好的結果。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News