對於大型語言模型的兩種不同期待

更新於 發佈於 閱讀時間約 7 分鐘
這文章其實也是李宏毅老師 2023 年機器學習課程的個人一些學習整理,李老師上課的內容&口吻很精彩,很建議大家直接看李老師的課程影片: 完整的所有課程在這裏

在 ChatGPT 爆紅以前,大型語言模型幾乎都是 BERT 的天下,而 ChatGPT 興起後,讓我們看到了大型語言模型另外一種發展方向的可能性。你知道它們的基本原理的不同,以及基於基本原理導致他們使用方式也不一樣嗎?
這篇文章就是在試著與大家說明這些。

GPT 與 BERT:兩種語言模型

在大型語言模型的世界中,GPT 和 BERT 是兩個重要的代表。GPT 的工作方式可以被視為是「文字接龍」,它會根據前文來預測下一個詞語。例如,給定「今天天氣真好,我想去」,GPT 可能會預測出「公園」作為下一個詞。相對的,BERT 的工作方式則像是「文字填空」,它會根據上下文來預測缺失的詞語。例如,給定「今天天氣真好,我想去___公園」,BERT 就會嘗試填入適合的詞語,如「附近的」。
而這兩個思路其實也逐漸發展出兩種我們看待大型語言模型的期待(路線)

專才與通才:語言模型的期待

對於大型語言模型,我們有兩種不同的期待。一種是期待它成為專才,另一種則是期待它成為通才。專才的語言模型,例如專門翻譯或專門做摘要的模型,需要特別的調教以達到最佳的效果,例如 BERT模型。
而通才的語言模型,例如 ChatGPT,則是讓使用者按照自己的提問來下指令(Prompt),讓模型執行不同的任務。

通才的早期想法

這種期待語言模型成為通才的想法並不是新的。在一篇名為"自然語言處理的通用任務"的論文中,作者們就提出了這種想法。他們提出了一種問答方式,其中包括問題、參考內文和答案。例如,問題可能是"誰是美國的第一任總統?",參考內文可能是一段關於美國歷史的文章,而語言模型則可以自動回覆答案: "喬治·華盛頓"。

專才與通才的優勢

專才與通才兩種方向各有其優點。專才模型由於專注於解決單一任務,因此通常在準確度上會有較佳的表現。例如,根據論文 "Is ChatGPT A Good Translator ? A Preliminary Study" 的研究,專才模型在特定的任務,如語言翻譯或文本摘要上,通常能夠達到更高的準確度。另一篇論文 "How Good Are GPT Models at Machine Tranlation? A Comprehensive Evaluation" 也指出,專才模型在特定的領域,如醫學或法律,能夠提供更精確的資訊,因為它們被訓練來理解並處理這些領域的專業知識。
然而,通才模型的優點在於其靈活性和多功能性。這種模型更接近我們人類的溝通模式,只需要透過不同的提問(prompt)就可以切換功能。例如,我們可以對模型說「對以下文句做摘要」,模型就會自動生成摘要。如果我們覺得摘要還是太長,只需要告訴模型「還是太長」,模型就會再次縮短摘要。這種方式不僅讓我們可以快速開發新的應用,甚至不需要寫程式,大大降低了開發的門檻。
總的來說,專才與通才兩種方向各有其優點,選擇哪種方向取決於我們的需求和目標。專才模型在特定任務上的高準確度使其在某些情況下更為實用,而通才模型的靈活性和多功能性則讓它在其他情況下更具優勢。

專才模型:BERT 的使用

理解了專才與通才兩種語言模型的不同思路與方向後,我們可以進一步探討如何改進這兩種基礎語言模型的使用方式。首先,我們來看看專才模型 BERT 的使用方式。
BERT 模型的訓練方式主要是進行文字填空,因此它本身並不具備生成完整句子的能力。為了充分利用 BERT 模型,我們需要根據具體需求進行改造。例如,如果我們的目標是建立一個翻譯專才,我們就需要針對這個應用來改造 BERT 模型。改造的方式包括添加外掛模型和微調模型參數。
添加外掛模型的方式就像在 BERT 模型的後方加上一個專門處理特定任務的模型。而微調模型參數則是在餵給模型一些目標任務的訓練資料的基礎上,調整模型的參數。例如,如果我們要訓練模型進行翻譯任務,我們就需要餵給它一些英翻中的示範資料。
此外,還有一種稱為 Adapter 的方式,它的基本運作原理是在原本的語言模型內插入一些額外的模型(也就是 Adapter)。我們只微調 Adapter 的參數,而不改變原本語言模型的所有參數。這樣可以最小化參數變動,並且如果我們需要處理 100 個專用任務,我們只需要有一個大模型和 100 個專用任務的 Adapter,避免了需要存儲 100 個大模型的問題。
接下來,我們來看看通才模型 GPT 的部分。

通才模型:GPT 的訓練

GPT 模型的訓練和改造主要是讓模型能夠理解題目和範例,這涉及到兩種學習方式:Instruction Learning 和 In-context Learning。
Instruction Learning 是讓模型理解題目的學習方式。我們只需要提供成對的題目和答案給模型,例如,我們提供了很多類似以下這樣結構的資料給 GPT 模型做訓練:
題目:對以下文句做翻譯:這堂課我們要講如何駕馭大型語言模型 ……
答案: This course is about ……

題目:對以下文句做摘要:這堂課我們要講如何駕馭大型語言模型 ……
答案: 本課程重點 為 ……
我們期待的是,GPT 語言模型可以做出與訓練資料相似但不完全相同的任務:
題目:請幫我編修以下文句:"How is you?” 
答案: "How are you?
GPT 模型的 Instruction Learning 就是類似這樣,我們提供給它 A, B, C 任務-答案的學習資料後,讓它可以進一步完成 D 任務的自動答案的回覆。
另一種重要的 GPT語言模型的學習方式是 In-context Learning。例如,我們想要訓練 GPT 模型進行情感分析,我們只需要在內文裏提供給 GPT類似下面的訓練資料:
今天天氣真好 分隔號 正面 分隔號
今天運氣真差 分隔號 負面 分隔號
這朵花真美 分隔號 正面 分隔號
我真的是累了 分隔號 負面 分隔號
之後,GPT 語言模型就可以在收到 "我感到非常高興" 這樣的文句後,主動幫你接上 "正面"。
我感到非常高興 分隔號 (後方為 GPT 自動接續) 正面 分隔號
至於這樣的訓練是讓 GPT 模型真正的學習情感分析,還是只是觸發 GPT 模型本來就具有的情感分析能力。李宏毅老師的課程內有詳細的分析說明,我們就不在此贅述,留個各位讀者自行觀看。

我們這篇文章內的圖表都是由李宏毅老師的課程投影片中選錄截取出來的,原始投影片可參考李老師課程首頁內連接: Machine Learning 2023 Spring

很感謝李宏毅老師同意使用。
為什麼會看到廣告
avatar-img
18會員
19內容數
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Ted Chen的沙龍 的其他內容
本文介紹了生成式學習中的兩種策略:「各個擊破」和「一次到位」。這兩種策略在生成速度和品質之間達到平衡。為了提高速度,可以採用"N次到位"的Diffusion Model策略。在語音和影像生成中,可以結合這兩種策略以充分利用優勢。融合策略可以同時確保品質和速度,展現人工智慧的潛力。
本文深入探討機器學習的核心概念,包括迴歸、分類和生成式學習。我們解釋了如何使用特定函式來實現期望任務,並將此過程分為設定範圍、確立標準和實現目標三個階段。文章還介紹了如何使用機器學習來訓練和測試模型,並以寶可夢應用為例說明迴歸和分類問題。
這篇文章揭示了訓練GPT模型的三個核心技術:預訓練、微調及增強式學習。預訓練利用大量網路資料提供基礎能力;微調讓GPT更貼近人類思維偏好;增強式學習最終優化模型回答問題的方式。此外,多語言預訓練能讓GPT在一語言的任務學習後,自動掌握其他語言的同樣任務。
這篇文章介紹了ChatGPT,一種大型的語言模型,能以自然語言回答問題,但不透過搜尋罐頭文字或網路內容。其核心技術是自監督式學習,通過大量的網路資料進行訓練,讓模型能進行文字接龍。儘管GPT系列經歷了多次演進,並需用大量的訓練資料,它的問答能力仍有待提升。然而,透過不斷優化,我們已有了更進一步的版本
由于 ChatGPT 的出現讓我們看到了聊天機器人的新可能性,我們這篇文章的目的,就是要來製作第一個屬於自己的聊天機器人。 我們先來準備範例的程式碼,並且稍後會再跟大家介紹要設計自己的 ChatGPT 聊天機器人的重要概念。 初始專案與環境設定 下載程式碼 請先使用下面這一段指令下載我們的範例程式碼
這篇其實就是 Andrew Ng 大大與 OpenAI 合作的一門免費課程【Chatgpt Prompt Engineering For Developers - Guideline】章節的第二段筆記。很建議大家直接看原本的課程影片,內容蠻淺顯易懂的。 第一段筆記在這:開發者的 ChatGPT 提示
本文介紹了生成式學習中的兩種策略:「各個擊破」和「一次到位」。這兩種策略在生成速度和品質之間達到平衡。為了提高速度,可以採用"N次到位"的Diffusion Model策略。在語音和影像生成中,可以結合這兩種策略以充分利用優勢。融合策略可以同時確保品質和速度,展現人工智慧的潛力。
本文深入探討機器學習的核心概念,包括迴歸、分類和生成式學習。我們解釋了如何使用特定函式來實現期望任務,並將此過程分為設定範圍、確立標準和實現目標三個階段。文章還介紹了如何使用機器學習來訓練和測試模型,並以寶可夢應用為例說明迴歸和分類問題。
這篇文章揭示了訓練GPT模型的三個核心技術:預訓練、微調及增強式學習。預訓練利用大量網路資料提供基礎能力;微調讓GPT更貼近人類思維偏好;增強式學習最終優化模型回答問題的方式。此外,多語言預訓練能讓GPT在一語言的任務學習後,自動掌握其他語言的同樣任務。
這篇文章介紹了ChatGPT,一種大型的語言模型,能以自然語言回答問題,但不透過搜尋罐頭文字或網路內容。其核心技術是自監督式學習,通過大量的網路資料進行訓練,讓模型能進行文字接龍。儘管GPT系列經歷了多次演進,並需用大量的訓練資料,它的問答能力仍有待提升。然而,透過不斷優化,我們已有了更進一步的版本
由于 ChatGPT 的出現讓我們看到了聊天機器人的新可能性,我們這篇文章的目的,就是要來製作第一個屬於自己的聊天機器人。 我們先來準備範例的程式碼,並且稍後會再跟大家介紹要設計自己的 ChatGPT 聊天機器人的重要概念。 初始專案與環境設定 下載程式碼 請先使用下面這一段指令下載我們的範例程式碼
這篇其實就是 Andrew Ng 大大與 OpenAI 合作的一門免費課程【Chatgpt Prompt Engineering For Developers - Guideline】章節的第二段筆記。很建議大家直接看原本的課程影片,內容蠻淺顯易懂的。 第一段筆記在這:開發者的 ChatGPT 提示
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
大部分就是他代替我工作GPT AI真的可以取代人類的任何工作
在上一期「LLM 005|大語言模型是如何利用Transformer理解語言的?」我們提到,Transformer是大語言模型理解語言的關鍵。 而Transformer架構兩個主要的後代是BERT以及GPT。 BERT是bidirectional encoder representati
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
大語言模型,例如OpenAI提供的ChatGPT,是過去幾年發展的深度神經網路模型,開啟自然語言處理的新紀元。
Thumbnail
這陣子使用AI模型,還有參考國內外一些喜歡玩語言模型的同好發文,一個很有趣的結論就是,有時候把大型語言模型(尤其ChatGPT)當作一個人來溝通,會得到比較好的結果,這的確是非常反直覺的,也就是說很多時候ChatGPT耍懶不肯工作的時候,你用加油打氣,或是情緒勒索的方法,確實是可以得到比較好的結果。
GPTs的應用,讓我們有機會窺見大師觀點,也幫助我們從不同的角度思考問題。過去我們需要一本本翻閱尋找解謎的鑰匙,現在你只要呼叫GPT,這些大師就紛紛獻出智慧,為你分憂解惑。AI的時代,讓我們更容易站在巨人肩膀上。
Thumbnail
ChatGPT 是 OpenAI 開發的大型語言模型,以其強大的生成能力和對話能力而聞名。 ChatGPT 的訓練過程主要分為兩個階段:預訓練和微調。 微調使用了 RLHF(Reinforcement Learning from Human Feedback)技術,可以有效地提高模型生成內容的質量。
Thumbnail
在這篇文章中,我們將探討如何利用ChatGPT這個強大的語言模型來學習其他語言,並比較其與Google翻譯的優缺點。無論你是想提升外語能力還是在跨文化交流中更加流暢,ChatGPT都是一個極具價值的工具。
Thumbnail
大型語言模型(LLM)是基於深度學習的自然語言處理模型,而多模態模型(LMM)能處理多種資料型態。這些模型將對未來帶來重大改變。LLM 專注於理解和生成自然語言,LMM 能夠處理跨模態的內容,並整合多種資料的能力,有望成為未來趨勢。
Thumbnail
大語言模型(LLMs)對於任何對人工智能和自然語言處理感興趣的人來說都是一個令人興奮的領域。 這類模型,如GPT-4, 透過其龐大的數據集和複雜的參數設置, 提供了前所未有的語言理解和生成能力。 那麼,究竟是什麼讓這些模型「大」得如此不同呢?
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
大部分就是他代替我工作GPT AI真的可以取代人類的任何工作
在上一期「LLM 005|大語言模型是如何利用Transformer理解語言的?」我們提到,Transformer是大語言模型理解語言的關鍵。 而Transformer架構兩個主要的後代是BERT以及GPT。 BERT是bidirectional encoder representati
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
大語言模型,例如OpenAI提供的ChatGPT,是過去幾年發展的深度神經網路模型,開啟自然語言處理的新紀元。
Thumbnail
這陣子使用AI模型,還有參考國內外一些喜歡玩語言模型的同好發文,一個很有趣的結論就是,有時候把大型語言模型(尤其ChatGPT)當作一個人來溝通,會得到比較好的結果,這的確是非常反直覺的,也就是說很多時候ChatGPT耍懶不肯工作的時候,你用加油打氣,或是情緒勒索的方法,確實是可以得到比較好的結果。
GPTs的應用,讓我們有機會窺見大師觀點,也幫助我們從不同的角度思考問題。過去我們需要一本本翻閱尋找解謎的鑰匙,現在你只要呼叫GPT,這些大師就紛紛獻出智慧,為你分憂解惑。AI的時代,讓我們更容易站在巨人肩膀上。
Thumbnail
ChatGPT 是 OpenAI 開發的大型語言模型,以其強大的生成能力和對話能力而聞名。 ChatGPT 的訓練過程主要分為兩個階段:預訓練和微調。 微調使用了 RLHF(Reinforcement Learning from Human Feedback)技術,可以有效地提高模型生成內容的質量。
Thumbnail
在這篇文章中,我們將探討如何利用ChatGPT這個強大的語言模型來學習其他語言,並比較其與Google翻譯的優缺點。無論你是想提升外語能力還是在跨文化交流中更加流暢,ChatGPT都是一個極具價值的工具。
Thumbnail
大型語言模型(LLM)是基於深度學習的自然語言處理模型,而多模態模型(LMM)能處理多種資料型態。這些模型將對未來帶來重大改變。LLM 專注於理解和生成自然語言,LMM 能夠處理跨模態的內容,並整合多種資料的能力,有望成為未來趨勢。
Thumbnail
大語言模型(LLMs)對於任何對人工智能和自然語言處理感興趣的人來說都是一個令人興奮的領域。 這類模型,如GPT-4, 透過其龐大的數據集和複雜的參數設置, 提供了前所未有的語言理解和生成能力。 那麼,究竟是什麼讓這些模型「大」得如此不同呢?