ChatGPT關鍵技術,GPT 怎麼變成 ChatGPT 的?

更新於 發佈於 閱讀時間約 5 分鐘
說明:
這文章其實也是李宏毅老師 2023 年機器學習課程的個人一些學習整理,李老師上課的內容&口吻很精彩,很建議大家直接看李老師的課程影片: 完整的所有課程在這裏

接續我們上一篇文章: ChatGPT 是什麼? ChatGPT 的原理
我們這篇文件將更進一步跟大家介紹 ChatGPT 的其他關鍵技術以及這些技術之間怎麼串在一起的。

關鍵技術一、預訓練

我們上一篇文章有提到,GPT 其實就是從網路資料訓練而來的,而這個訓練方式就稱為預訓練(也就是自監督學習)。
而單純只是使用網路資料訓練而來的 GPT 可以有什麼能耐呢? 其實在 GPT-3 發表時,人們就發現好像有機會透過指令讓它寫程式。
只不過...語言模型如果只是從網路資料來做學習,會有很大的問題,例如:
如果我們將程式設計的考題貼上,只是經過預訓練的 GPT 模型,它可能只是直接就把該考題的 ABCD 選項,回覆給你。
而要解決上述的問題,就需要人類老師的協助了(finetune)。

關鍵技術二、微調(finetune)

經過預訓練的 GPT 模型,也就是俗稱的基石模型,我們有了基石模型後,下一步就是要想辦法讓 GPT 繼續學習(微調 finetune)。
而對 GPT 模型進行微調其實就像是我們在試著告訴 GPT 人類的偏好,
我們一樣以【台灣最高的山是哪座】為例,因為 GPT 從網路上學習了大量的句子,所以【台灣最高的上是哪座】這樣的問題,有很多可能的答案,例如:
網路上有人可能真的回答了【玉山】,
但是也有可能 GPT 學習到的只是某份考卷內的選項【(A)雪山 (B)玉山】
甚至也有可能只是有人在網路上貼文求救,【誰來告訴我啊】
以上這三種可能的答案,我們如何讓 GPT 知道哪個答案才是對的,也就是我們人類對這類問題回答的偏好呢?
ChatGPT 的方式就是在內部再額外建立一個學習人類偏好的模型,我們把它簡稱為 Teacher Model,前面那個三個可能的答案,ChatGPT 會先透過我們人類老師來人工挑選適合的答案(也就是玉山那個),再將三個可能答案得到的分數餵給 Teacher Model,讓 Teacher Model 學習到我們的偏好。
然後用我們人類偏好的答案回覆給我們。

關鍵技術三、增強式學習

到這裏,可能就有人反應了,這樣人類老師不是需要蒐集很多的問題來微調?
是也不是,需要微調的數量的確也不少,所以 ChatGPT 最後的訓練流程,則使用了增強式學習的概念。
增強式學習的原理大概是這樣:
在我們有了懂得人類偏好的模型之後(也就是 Teacher Model),我們就可以把問題以及 GPT 的答覆一起餵給 Teacher Model,而因為 Teacher Model 這時候已經知道我們人類對這類問題的口味偏好了。所以也就可以代替我們人類來幫 GPT 的答案打分數,這個分數其實也就是增強式學習中的 Reward。
最後 GPT 就會依照這個拿到的分數多寡來調整 GPT 的參數,這樣 GPT 的回覆就可以在 Teacher Model 這邊取得高分,如此便能夠逐漸回覆人類偏好的答案。
經過以上反復調教後,ChatGPT 也就練成了。
所以當人們詢問 ChatGPT 【世界上最高的上是哪座】時,ChatGPT 也就知道該回覆什麼答案,也就是喜馬拉雅山。
以上幾個就是 ChatGPT 練成的幾個關鍵技術,最後有一個蠻有趣的現象來跟大家做補充。
大家都知道 ChatGPT 幾乎什麼語言都能通,這樣我們需要針對每個語言來訓練 GPT 嗎?
答案可能是不需要。

預訓練的多語言能力

李宏毅老師的實驗室曾經發現,當語言模型在多語言上做了預訓練之後,下一步的問答訓練上,只要教語言模型某一個語言的某一個任務,語言模型就自動會學會其他語言的同樣任務了。
詳細的細節,有興趣的人可以去查詢 Multi-BERT 這篇論文,在這裏我們先跟大家分享其中一個可以佐證這個現象的分析數據。
他們發現,如果在一個沒有經過預訓練的語言模型上(QANet),使用中文問答來微調後,它可以達到約 78.1 分的精準度。
(為方便理解,我們在此將 F1 Score 當做精準度)
而在以中文來做預訓練的 BERT 模型上,使用中文問答來做微調,它的效果的確比沒有用中文做預訓練的 QANet 好,可達到 89.1 分。
但是在以 104 個語言來做預訓練的語言模型(BERT)上,我們只是用英文問答來微調,然後用中文問答來測試,卻也可以取得 78.8 的高分。
這個現象要怎麼解釋呢?
或許透過 104 個語言來做預訓練的 GPT,不只學習到了大量的人類知識,它也學到了人類語言裏的共同概念(語言)了吧。

備註一、
我們這篇文章內的圖表都是由李宏毅老師的課程投影片中選錄截取出來的,原始投影片可參考李老師課程首頁內連接: Machine Learning 2023 Spring

很感謝李宏毅老師無私的分享以及同意使用。
------
備註二、實際上 ChatGPT 如何實做出來的,ChatGPT 官方已經不再詳細公佈了。不過我們透過一些蛛絲馬跡看出,ChatGPT 的實做細節很有可能也跟 IntructionGPT 類似。以上詳細說明也請參考 李宏毅老師【ChatGPT (可能)是怎麼煉成的 - GPT 社會化的過程】的這個課程影片。































為什麼會看到廣告
avatar-img
18會員
19內容數
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Ted Chen的沙龍 的其他內容
這篇文章介紹了ChatGPT,一種大型的語言模型,能以自然語言回答問題,但不透過搜尋罐頭文字或網路內容。其核心技術是自監督式學習,通過大量的網路資料進行訓練,讓模型能進行文字接龍。儘管GPT系列經歷了多次演進,並需用大量的訓練資料,它的問答能力仍有待提升。然而,透過不斷優化,我們已有了更進一步的版本
由于 ChatGPT 的出現讓我們看到了聊天機器人的新可能性,我們這篇文章的目的,就是要來製作第一個屬於自己的聊天機器人。 我們先來準備範例的程式碼,並且稍後會再跟大家介紹要設計自己的 ChatGPT 聊天機器人的重要概念。 初始專案與環境設定 下載程式碼 請先使用下面這一段指令下載我們的範例程式碼
這篇其實就是 Andrew Ng 大大與 OpenAI 合作的一門免費課程【Chatgpt Prompt Engineering For Developers - Guideline】章節的第二段筆記。很建議大家直接看原本的課程影片,內容蠻淺顯易懂的。 第一段筆記在這:開發者的 ChatGPT 提示
這篇其實就是 Andrew Ng 大大與 OpenAI 合作的一門免費課程【Chatgpt Prompt Engineering For Developers】的筆記。很建議大家直接看原本的課程影片,內容蠻淺顯易懂的。 另外因為篇幅有限,所以我們會將他的第一堂課的內容(Guidelines),拆分成
在正式以比較技術面角度來認識 ChatGPT / GPT 之前,我們先用幾個簡單的例子來認識 ChatGPT 以及語言模型可以做到怎樣的事情。 什麼是 ChatGPT? 簡單來說明,ChatGPT 是一個背後使用 GPT 語言模型的對話機器人,而它可以做什麼事情了?我們先來使用幾個常見的語言相關的任
63 個省,嗯...好多啊,可能記得起來嗎?不過開玩笑的,記憶也沒有太多意義,今天和大家分享這影片主要是因為,這影片的取景跟配樂實在是太精彩了 另外這位 Youtuber 其實關注他很久了,很喜歡他表現出來的自豪、熱愛的態度,一定是位很熱愛自己國土的人,才能堅持到現在。 比較可惜的是這部影片沒有字幕
這篇文章介紹了ChatGPT,一種大型的語言模型,能以自然語言回答問題,但不透過搜尋罐頭文字或網路內容。其核心技術是自監督式學習,通過大量的網路資料進行訓練,讓模型能進行文字接龍。儘管GPT系列經歷了多次演進,並需用大量的訓練資料,它的問答能力仍有待提升。然而,透過不斷優化,我們已有了更進一步的版本
由于 ChatGPT 的出現讓我們看到了聊天機器人的新可能性,我們這篇文章的目的,就是要來製作第一個屬於自己的聊天機器人。 我們先來準備範例的程式碼,並且稍後會再跟大家介紹要設計自己的 ChatGPT 聊天機器人的重要概念。 初始專案與環境設定 下載程式碼 請先使用下面這一段指令下載我們的範例程式碼
這篇其實就是 Andrew Ng 大大與 OpenAI 合作的一門免費課程【Chatgpt Prompt Engineering For Developers - Guideline】章節的第二段筆記。很建議大家直接看原本的課程影片,內容蠻淺顯易懂的。 第一段筆記在這:開發者的 ChatGPT 提示
這篇其實就是 Andrew Ng 大大與 OpenAI 合作的一門免費課程【Chatgpt Prompt Engineering For Developers】的筆記。很建議大家直接看原本的課程影片,內容蠻淺顯易懂的。 另外因為篇幅有限,所以我們會將他的第一堂課的內容(Guidelines),拆分成
在正式以比較技術面角度來認識 ChatGPT / GPT 之前,我們先用幾個簡單的例子來認識 ChatGPT 以及語言模型可以做到怎樣的事情。 什麼是 ChatGPT? 簡單來說明,ChatGPT 是一個背後使用 GPT 語言模型的對話機器人,而它可以做什麼事情了?我們先來使用幾個常見的語言相關的任
63 個省,嗯...好多啊,可能記得起來嗎?不過開玩笑的,記憶也沒有太多意義,今天和大家分享這影片主要是因為,這影片的取景跟配樂實在是太精彩了 另外這位 Youtuber 其實關注他很久了,很喜歡他表現出來的自豪、熱愛的態度,一定是位很熱愛自己國土的人,才能堅持到現在。 比較可惜的是這部影片沒有字幕
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 ChatGPT 在 2022 年底和 2023 年初突然成為主流,震驚了世界,數以千計的任務被提交給這個令人難以置信的生成式人工智慧模型,帶有 GPT-4 的 Chat
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 生成式AI (Generative AI)是一種人工智慧,它調度機器學習方式來產生新的或者是原創的文字、
Thumbnail
ChatGPT(全名:聊天生成預訓練轉換器)是一個由 OpenAI 開發的人工智慧聊天機器人程式。它於 2022 年 11 月推出,使用了基於 GPT-3.5、GPT-4 和 GPT-4o 架構的大型語言模型,並以強化學習進行訓練。
Thumbnail
在機器學習領域中,監督學習、無監督學習和強化學習是三種核心方法,它們在解決不同類型的問題時發揮著重要作用。
Thumbnail
筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
Thumbnail
本文談論了使用ChatGPT的心得和學習新技術的10個步驟,透過這些方法和步驟可以幫助學習者快速有效地掌握新技術。
機器學習是什麼? 簡單來說,機器學習就是訓練機器尋找Function的一段過程,而這個Function可以幫助我們解決我們遇到的問題,或是幫助我們
GPTs的應用,讓我們有機會窺見大師觀點,也幫助我們從不同的角度思考問題。過去我們需要一本本翻閱尋找解謎的鑰匙,現在你只要呼叫GPT,這些大師就紛紛獻出智慧,為你分憂解惑。AI的時代,讓我們更容易站在巨人肩膀上。
Thumbnail
ChatGPT 是 OpenAI 開發的大型語言模型,以其強大的生成能力和對話能力而聞名。 ChatGPT 的訓練過程主要分為兩個階段:預訓練和微調。 微調使用了 RLHF(Reinforcement Learning from Human Feedback)技術,可以有效地提高模型生成內容的質量。
Thumbnail
從ChatGPT 4.0到GPTs 我是ChatGPT 4.0的付費使用者,說真格的,自從付費之後,就不想退出了,因為真是好用。 最近,ChatGPT 4.0又提供了GPTs的服務...... 有時候別人邀請我演講,我都會先溝通需求,有一次,某間學校邀請我對學生分享ChatGPT等生成式人工智
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 ChatGPT 在 2022 年底和 2023 年初突然成為主流,震驚了世界,數以千計的任務被提交給這個令人難以置信的生成式人工智慧模型,帶有 GPT-4 的 Chat
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 生成式AI (Generative AI)是一種人工智慧,它調度機器學習方式來產生新的或者是原創的文字、
Thumbnail
ChatGPT(全名:聊天生成預訓練轉換器)是一個由 OpenAI 開發的人工智慧聊天機器人程式。它於 2022 年 11 月推出,使用了基於 GPT-3.5、GPT-4 和 GPT-4o 架構的大型語言模型,並以強化學習進行訓練。
Thumbnail
在機器學習領域中,監督學習、無監督學習和強化學習是三種核心方法,它們在解決不同類型的問題時發揮著重要作用。
Thumbnail
筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
Thumbnail
本文談論了使用ChatGPT的心得和學習新技術的10個步驟,透過這些方法和步驟可以幫助學習者快速有效地掌握新技術。
機器學習是什麼? 簡單來說,機器學習就是訓練機器尋找Function的一段過程,而這個Function可以幫助我們解決我們遇到的問題,或是幫助我們
GPTs的應用,讓我們有機會窺見大師觀點,也幫助我們從不同的角度思考問題。過去我們需要一本本翻閱尋找解謎的鑰匙,現在你只要呼叫GPT,這些大師就紛紛獻出智慧,為你分憂解惑。AI的時代,讓我們更容易站在巨人肩膀上。
Thumbnail
ChatGPT 是 OpenAI 開發的大型語言模型,以其強大的生成能力和對話能力而聞名。 ChatGPT 的訓練過程主要分為兩個階段:預訓練和微調。 微調使用了 RLHF(Reinforcement Learning from Human Feedback)技術,可以有效地提高模型生成內容的質量。
Thumbnail
從ChatGPT 4.0到GPTs 我是ChatGPT 4.0的付費使用者,說真格的,自從付費之後,就不想退出了,因為真是好用。 最近,ChatGPT 4.0又提供了GPTs的服務...... 有時候別人邀請我演講,我都會先溝通需求,有一次,某間學校邀請我對學生分享ChatGPT等生成式人工智