對於大型語言模型的兩種不同期待

2023/06/07 更新2023/06/07 發佈閱讀 8 分鐘

這文章其實也是李宏毅老師 2023 年機器學習課程的個人一些學習整理，李老師上課的內容&口吻很精彩，很建議大家直接看李老師的課程影片：完整的所有課程在這裏

在 ChatGPT 爆紅以前，大型語言模型幾乎都是 BERT 的天下，而 ChatGPT 興起後，讓我們看到了大型語言模型另外一種發展方向的可能性。你知道它們的基本原理的不同，以及基於基本原理導致他們使用方式也不一樣嗎？

這篇文章就是在試著與大家說明這些。

GPT 與 BERT：兩種語言模型

在大型語言模型的世界中，GPT 和 BERT 是兩個重要的代表。GPT 的工作方式可以被視為是「文字接龍」，它會根據前文來預測下一個詞語。例如，給定「今天天氣真好，我想去」，GPT 可能會預測出「公園」作為下一個詞。相對的，BERT 的工作方式則像是「文字填空」，它會根據上下文來預測缺失的詞語。例如，給定「今天天氣真好，我想去___公園」，BERT 就會嘗試填入適合的詞語，如「附近的」。

而這兩個思路其實也逐漸發展出兩種我們看待大型語言模型的期待（路線）

專才與通才：語言模型的期待

對於大型語言模型，我們有兩種不同的期待。一種是期待它成為專才，另一種則是期待它成為通才。專才的語言模型，例如專門翻譯或專門做摘要的模型，需要特別的調教以達到最佳的效果，例如 BERT模型。

而通才的語言模型，例如 ChatGPT，則是讓使用者按照自己的提問來下指令（Prompt），讓模型執行不同的任務。

通才的早期想法

這種期待語言模型成為通才的想法並不是新的。在一篇名為"自然語言處理的通用任務"的論文中，作者們就提出了這種想法。他們提出了一種問答方式，其中包括問題、參考內文和答案。例如，問題可能是"誰是美國的第一任總統？"，參考內文可能是一段關於美國歷史的文章，而語言模型則可以自動回覆答案： "喬治·華盛頓"。

專才與通才的優勢

專才與通才兩種方向各有其優點。專才模型由於專注於解決單一任務，因此通常在準確度上會有較佳的表現。例如，根據論文 "Is ChatGPT A Good Translator ? A Preliminary Study" 的研究，專才模型在特定的任務，如語言翻譯或文本摘要上，通常能夠達到更高的準確度。另一篇論文 "How Good Are GPT Models at Machine Tranlation？ A Comprehensive Evaluation" 也指出，專才模型在特定的領域，如醫學或法律，能夠提供更精確的資訊，因為它們被訓練來理解並處理這些領域的專業知識。

然而，通才模型的優點在於其靈活性和多功能性。這種模型更接近我們人類的溝通模式，只需要透過不同的提問（prompt）就可以切換功能。例如，我們可以對模型說「對以下文句做摘要」，模型就會自動生成摘要。如果我們覺得摘要還是太長，只需要告訴模型「還是太長」，模型就會再次縮短摘要。這種方式不僅讓我們可以快速開發新的應用，甚至不需要寫程式，大大降低了開發的門檻。

總的來說，專才與通才兩種方向各有其優點，選擇哪種方向取決於我們的需求和目標。專才模型在特定任務上的高準確度使其在某些情況下更為實用，而通才模型的靈活性和多功能性則讓它在其他情況下更具優勢。

專才模型：BERT 的使用

理解了專才與通才兩種語言模型的不同思路與方向後，我們可以進一步探討如何改進這兩種基礎語言模型的使用方式。首先，我們來看看專才模型 BERT 的使用方式。

BERT 模型的訓練方式主要是進行文字填空，因此它本身並不具備生成完整句子的能力。為了充分利用 BERT 模型，我們需要根據具體需求進行改造。例如，如果我們的目標是建立一個翻譯專才，我們就需要針對這個應用來改造 BERT 模型。改造的方式包括添加外掛模型和微調模型參數。

添加外掛模型的方式就像在 BERT 模型的後方加上一個專門處理特定任務的模型。而微調模型參數則是在餵給模型一些目標任務的訓練資料的基礎上，調整模型的參數。例如，如果我們要訓練模型進行翻譯任務，我們就需要餵給它一些英翻中的示範資料。

此外，還有一種稱為 Adapter 的方式，它的基本運作原理是在原本的語言模型內插入一些額外的模型（也就是 Adapter）。我們只微調 Adapter 的參數，而不改變原本語言模型的所有參數。這樣可以最小化參數變動，並且如果我們需要處理 100 個專用任務，我們只需要有一個大模型和 100 個專用任務的 Adapter，避免了需要存儲 100 個大模型的問題。

接下來，我們來看看通才模型 GPT 的部分。

通才模型：GPT 的訓練

GPT 模型的訓練和改造主要是讓模型能夠理解題目和範例，這涉及到兩種學習方式：Instruction Learning 和 In-context Learning。

Instruction Learning 是讓模型理解題目的學習方式。我們只需要提供成對的題目和答案給模型，例如，我們提供了很多類似以下這樣結構的資料給 GPT 模型做訓練：

題目：對以下文句做翻譯：這堂課我們要講如何駕馭大型語言模型 ……
答案： This course is about ……

題目：對以下文句做摘要：這堂課我們要講如何駕馭大型語言模型 ……
答案：本課程重點為 ……

我們期待的是，GPT 語言模型可以做出與訓練資料相似但不完全相同的任務：

題目：請幫我編修以下文句："How is you?” 
答案： "How are you?

GPT 模型的 Instruction Learning 就是類似這樣，我們提供給它 A, B, C 任務-答案的學習資料後，讓它可以進一步完成 D 任務的自動答案的回覆。

另一種重要的 GPT語言模型的學習方式是 In-context Learning。例如，我們想要訓練 GPT 模型進行情感分析，我們只需要在內文裏提供給 GPT類似下面的訓練資料：

今天天氣真好 分隔號 正面 分隔號
今天運氣真差 分隔號 負面 分隔號
這朵花真美 分隔號 正面 分隔號
我真的是累了 分隔號 負面 分隔號

之後，GPT 語言模型就可以在收到 "我感到非常高興" 這樣的文句後，主動幫你接上 "正面"。

我感到非常高興 分隔號 （後方為 GPT 自動接續） 正面 分隔號

至於這樣的訓練是讓 GPT 模型真正的學習情感分析，還是只是觸發 GPT 模型本來就具有的情感分析能力。李宏毅老師的課程內有詳細的分析說明，我們就不在此贅述，留個各位讀者自行觀看。

我們這篇文章內的圖表都是由李宏毅老師的課程投影片中選錄截取出來的，原始投影片可參考李老師課程首頁內連接： Machine Learning 2023 Spring

很感謝李宏毅老師同意使用。

留言

留言分享你的想法！

Ted Chen的沙龍

18會員

19內容數

Ted Chen的沙龍的其他內容

2023/08/04

使用 ChatGPT API 建立對話系統學習筆記 - 6

本篇文章深入探討了如何評估模糊訊息在對話系統開發中的它的品質驗證方式，並且使用了類似Rubic評分準則的方法來評估回覆訊息。也介紹了專家回覆與實際回覆比較的評估方式。文章最終目的希望能讓讀者具備開發自己的對話機器人的知識。

2023/08/04

使用 ChatGPT API 建立對話系統學習筆記 - 6

2023/07/28

使用 ChatGPT API 建立對話系統學習筆記 - 5

此文針對對話系統的持續開發和改進過程進行詳細解說，尤其在提示訊息的設計與驗證方面。以大賣場的銷售助理為例，我們設計了提示訊息，進行多次測試與調整，確保回應結果符合預期。透過建立測試集和評估函式，我們實現了批次驗證，確保所有測試項目的有效性。

2023/07/28

使用 ChatGPT API 建立對話系統學習筆記 - 5

2023/07/21

使用 ChatGPT API 建立對話系統學習筆記 - 4

本篇文章探討如何整合大型語言模型與外部程式與資源來生成回應訊息。我們使用OpenAI的Moderation API來確認內容的合適性，並使用新的提示來評估是否真正解答了使用者的疑問。整體流程的匯整讓我們一覽全貌。我們將在下一篇文章中分享更多有關回應訊息評估的細節。

2023/07/21

使用 ChatGPT API 建立對話系統學習筆記 - 4

看更多

你可能也想看

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

還在煩惱平凡日常該如何增添一點小驚喜嗎？全家便利商店這次聯手超萌的馬來貘，推出黑白配色的馬來貘雪糕，不僅外觀吸睛，層次豐富的雙層口味更是讓人一口接一口！本文將帶你探索馬來貘雪糕的多種創意吃法，從簡單的豆漿燕麥碗、藍莓果昔，到大人系的奇亞籽布丁下午茶，讓可愛的馬來貘陪你度過每一餐，增添生活中的小確幸！

#懶人料理#食譜#健康甜點

2025/10/15

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

#懶人料理#食譜#健康甜點

2025/10/15

Focus 否可思的沙龍

ChatGPT大解密！AI神器的基本原理、功能介紹｜Focus

基本介紹及主要的功能。淺層基礎原理解釋。優缺點及問題分析。 ChatGPT，這個名字在過去幾個月內迅速成為科技界的一個熱門話題。它是由OpenAI發布的一款聊天機器人，自從去年11月推出以來，它以驚人的速度突破了1億的訪問量，不僅成為了成長速度最快的消費者應用程式，更在各種專業和學術

#ChatGPT#OpenAI#聊天機器人

2023/11/20

Focus 否可思的沙龍

ChatGPT大解密！AI神器的基本原理、功能介紹｜Focus

#ChatGPT#OpenAI#聊天機器人

2023/11/20

孫正傑

ChatGPT 是什麼？

ChatGPT 是由 OpenAI 開發的一種人工智能語言模型，它基於 GPT-3.5 架構。GPT 的全名是 "Generative Pre-trained Transformer"，它是一種預訓練的自然語言處理模型。GPT-3.5 是 GPT 系列的最新版本，它在 GPT-3 的基礎上進行了改進

2023/08/05

2023/08/05

大家好，我是茶桁。在前两节课中，我们一起体验了 OpenAI 提供的 GPT-3.5 系列模型的两个核心接口。一个是获取文本的 Embedding 向量，另一个是根据提示语生成补全的文本内容。通过这两种方法，我们可以在零样本或少样本的情况下进行情感分析任务。然而，你可能会有两个疑问。首先，Emb

2023/07/31

2023/07/31

本文探討大型語言模型的兩種主要類型：GPT和BERT。GPT，如ChatGPT，被視為"通才"，能執行多種任務。BERT則被視為"專才"的基本語言模型。兩者各有優點：專才模型在特定任務上準確度高，而通才模型靈活多功能。選擇哪種取決於需求和目標。

2023/06/07

2023/06/07

AI取代人類的時代到來了嗎？近期超火紅的AI機器人ChatGPT是什麼？ChatGPT優勢、劣勢、適用場景一次看

你知道近期超夯的AI機器人ChatGPT是什麼嗎？為什麼身邊及各大媒體越來越多人在討論及應用ChatGPT呢？難道AI取代人類的時代真的要來了嗎？今天就一起來了解ChatGPT對於未來會帶給我們什麼影響吧！

#ChatGPT#AI

2023/06/01

妍的沙龍

AI取代人類的時代到來了嗎？近期超火紅的AI機器人ChatGPT是什麼？ChatGPT優勢、劣勢、適用場景一次看

#ChatGPT#AI

2023/06/01

Ted Chen的沙龍

ChatGPT關鍵技術，GPT 怎麼變成 ChatGPT 的？

這篇文章揭示了訓練GPT模型的三個核心技術：預訓練、微調及增強式學習。預訓練利用大量網路資料提供基礎能力；微調讓GPT更貼近人類思維偏好；增強式學習最終優化模型回答問題的方式。此外，多語言預訓練能讓GPT在一語言的任務學習後，自動掌握其他語言的同樣任務。

#ChatGPT#預訓練#語言模型

2023/05/31

Ted Chen的沙龍

ChatGPT關鍵技術，GPT 怎麼變成 ChatGPT 的？

#ChatGPT#預訓練#語言模型

2023/05/31

Ted Chen的沙龍

ChatGPT 是什麼？ ChatGPT 的原理

這篇文章介紹了ChatGPT，一種大型的語言模型，能以自然語言回答問題，但不透過搜尋罐頭文字或網路內容。其核心技術是自監督式學習，通過大量的網路資料進行訓練，讓模型能進行文字接龍。儘管GPT系列經歷了多次演進，並需用大量的訓練資料，它的問答能力仍有待提升。然而，透過不斷優化，我們已有了更進一步的版本

#ChatGPT#GPT技術#語言模型

2023/05/26

Ted Chen的沙龍

ChatGPT 是什麼？ ChatGPT 的原理

#ChatGPT#GPT技術#語言模型

2023/05/26

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News