ChatGPT 模型訓練:RLHF 技術解析

更新於 發佈於 閱讀時間約 2 分鐘

ChatGPT 是 OpenAI 開發的大型語言模型,以其強大的生成能力和對話能力而聞名。 ChatGPT 的訓練過程主要分為兩個階段:預訓練微調

預訓練階段使用大量的文字數據來訓練模型,使其掌握語言的基本規律。 ChatGPT 的預訓練模型是 GPT-3,它是一個由 1750 億個參數組成的巨型語言模型。 GPT-3 的訓練數據包括了書籍、文章、程式碼等各種形式的文字。

微調階段使用特定領域的數據來調整模型,使其能夠更好地滿足特定需求。 ChatGPT 的微調過程使用了 RLHF(Reinforcement Learning from Human Feedback)技術。

RLHF 是一種利用人類反饋來強化學習的技術。 在 ChatGPT 的微調過程中,人類評估人員會對模型生成的內容進行評分,並提供反饋。 模型根據人類的反饋來調整自己的輸出,從而提高生成內容的質量。

RLHF 技術可以有效地提高 ChatGPT 的生成能力。 在經過 RLHF 微調之後,ChatGPT 可以生成更加符合人類預期的內容,並且能夠更好地完成各種任務。

Reward function 示意

Reward function 示意

RLHF 的具體流程

RLHF 的具體流程如下:

  1. 模型生成內容。
  2. 人類評估人員對內容進行評分,並提供反饋。
  3. 模型根據反饋調整輸出。

RLHF 的優點

RLHF 具有以下優點:

  • 可以有效地提高模型生成內容的質量。
  • 可以使模型更好地滿足特定需求。
  • 可以提高模型的魯棒性。

RLHF 的挑戰

RLHF 也存在一些挑戰:

  • 需要大量的人工反饋。
  • 人工反饋可能存在偏差。
  • 可能會強化模型的偏見。

RLHF 的未來

RLHF 是一種很有潛力的技術,可以有效地提高語言模型的性能。 隨著人工智慧技術的發展,RLHF 技術將會得到進一步的完善,並在更多領域得到應用。

總結

這樣的架構是從Reinforcement Learning(Q-Learning)所衍伸出來的,過去在這項技術的發展上通常會藉由設計一個適當的Rewared Function好讓模型推論出來的結果在反應到Action後會加分或是扣分的一個機制。有這樣的設計可以輕易地將模型的推論結果評估錯誤率,再將這個錯誤值透過back propagation的方法使模型在訓練過程中調整網路架構中的權重值。過去常看到一些大神在遊戲領域上有大量的應用,因為遊戲中有相當多的資訊能夠作為sensor input, 且遊戲的reward function也相對好設計。

有意思的地方是人工智慧的背後其實還是有不少的工人智慧,但幸運的是這些工人智慧我們是將其稱作資料前處理。





avatar-img
0會員
4內容數
寫作與AI相關的科普知識與相關技能,讓讀者們能快速地掌握科技新知並且運用在個人生活和工作領域,與AI合作創造價值 science knowledge / AI/ personal life and work and create value with AI.
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Raphael AI 科學家 的其他內容
在這篇文章中,我們將探討如何利用ChatGPT這個強大的語言模型來學習其他語言,並比較其與Google翻譯的優缺點。無論你是想提升外語能力還是在跨文化交流中更加流暢,ChatGPT都是一個極具價值的工具。
圖靈測試是用於衡量機器是否能夠表現出與人類相等的智能的方法。本文介紹了圖靈測試的歷史、原理和評價,並探討了ChatGPT是否能通過該測試的問題
在這篇文章中,我們將探討如何利用ChatGPT這個強大的語言模型來學習其他語言,並比較其與Google翻譯的優缺點。無論你是想提升外語能力還是在跨文化交流中更加流暢,ChatGPT都是一個極具價值的工具。
圖靈測試是用於衡量機器是否能夠表現出與人類相等的智能的方法。本文介紹了圖靈測試的歷史、原理和評價,並探討了ChatGPT是否能通過該測試的問題
你可能也想看
Google News 追蹤
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 ChatGPT 在 2022 年底和 2023 年初突然成為主流,震驚了世界,數以千計的任務被提交給這個令人難以置信的生成式人工智慧模型,帶有 GPT-4 的 Chat
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 RTAO 範本簡單而深刻,由四個關鍵元素定義:Role 、 Task 、 Audience 、 Outp
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 以下來談談生成式AI對未來世界的轉變: 商業格局重新構想:邁向未來,生成式人工智慧成為改變商業格局
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 針對Generative AI、Foundation Model、Large Language Mode
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 ChatGPT縱然成功,但是仍有一些任務處理得不好,例如: 需要邏輯推論的任務 多步驟的任務
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 生成式AI (Generative AI)是一種人工智慧,它調度機器學習方式來產生新的或者是原創的文字、
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續AI說書 - Prompt Engineering - 1,我們從AI分類開始談起: 機器學習
Thumbnail
ChatGPT(全名:聊天生成預訓練轉換器)是一個由 OpenAI 開發的人工智慧聊天機器人程式。它於 2022 年 11 月推出,使用了基於 GPT-3.5、GPT-4 和 GPT-4o 架構的大型語言模型,並以強化學習進行訓練。
Thumbnail
筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
延續使用Meta釋出的模型,實作Chat GPT - Part 4,我們現在遇到一個問題:語言模型回答的資訊不是我想要的。 於是我參照ChatGPT回答不是你要的怎麼辦?,想使用低成本的技術:RAG,來改善這問題。 以下開始實作,首先引入一個重量級工具包,它叫做LangChain,這是做語言模型
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 ChatGPT 在 2022 年底和 2023 年初突然成為主流,震驚了世界,數以千計的任務被提交給這個令人難以置信的生成式人工智慧模型,帶有 GPT-4 的 Chat
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 RTAO 範本簡單而深刻,由四個關鍵元素定義:Role 、 Task 、 Audience 、 Outp
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 以下來談談生成式AI對未來世界的轉變: 商業格局重新構想:邁向未來,生成式人工智慧成為改變商業格局
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 針對Generative AI、Foundation Model、Large Language Mode
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 ChatGPT縱然成功,但是仍有一些任務處理得不好,例如: 需要邏輯推論的任務 多步驟的任務
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 生成式AI (Generative AI)是一種人工智慧,它調度機器學習方式來產生新的或者是原創的文字、
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續AI說書 - Prompt Engineering - 1,我們從AI分類開始談起: 機器學習
Thumbnail
ChatGPT(全名:聊天生成預訓練轉換器)是一個由 OpenAI 開發的人工智慧聊天機器人程式。它於 2022 年 11 月推出,使用了基於 GPT-3.5、GPT-4 和 GPT-4o 架構的大型語言模型,並以強化學習進行訓練。
Thumbnail
筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
延續使用Meta釋出的模型,實作Chat GPT - Part 4,我們現在遇到一個問題:語言模型回答的資訊不是我想要的。 於是我參照ChatGPT回答不是你要的怎麼辦?,想使用低成本的技術:RAG,來改善這問題。 以下開始實作,首先引入一個重量級工具包,它叫做LangChain,這是做語言模型