生成式 AI 之 大資料的驚人發現

閱讀時間約 4 分鐘
這文章其實也是李宏毅老師 2023 年機器學習課程的個人一些學習整理,李老師上課的內容&口吻很精彩,很建議大家直接看李老師的課程影片: 完整的所有課程在這裏

在上一篇文章中,我們已探討了大模型所展現的幾種特殊現象。本篇將鎖定"大資料"為主題,跟您分享其各種令人訝異的發現。
首先,我們先來看大資料對模型有什麼根本的影響。

我們為何需要數以十億計的資料?

一般來說,若我們希望語言模型能回答問題,基本上會需要達成兩個條件。第一,模型必須能理解我們人類的語言,也就是具有對語句句法、語義的理解能力。第二,模型需要擁有我們人類的知識。
為何人類的知識認知這麼重要呢?讓我們以一個例子說明。假設有人說:「我的手剛剛被冰水燙到了」。這句話在句法上無可挑剔,但卻與我們的常識相違背。我們知道冰水不可能燙傷人,所以讓語言模型不只聽得懂我們的話,更能辨識出其中的對錯,就必須要有語法與世界知識。
在我們明確了解語法與世界知識的重要性之後,來我們來參考一篇名為"When Do You Need Billions of Words of Pretraining Data?"的論文中的一張圖表。
圖一
該圖表的橫軸代表的是資料量(字數),縱軸則是語言模型的效能。在曲線部分,藍紫色代表的是句法的學習、紫色代表的是語義部分、淺藍色則代表對我們世界知識的學習。從這張圖表我們可以觀察到,當資料量達到一百萬個字左右,語言模型就會明顯開始學習我們語言的語法;而當資料量超過十億個字後,語言模型就會開始快速累積對我們世界知識的理解。
因此,我們能從這張圖表中大概了解,若要自行訓練語言模型,大概需要多少數量的資料,以及資料量夠大時,對模型有什麼基本的影響了。

選擇大模型或大資料

在我們對大模型與大資料有基本理解後,如果我們只有固定的運算資源,應該選擇大模型還是大資料呢?
圖二
早些時候,大家都在競爭模型的規模。例如,我們可以看到如上圖,從2020年的GPT-3的1750億個參數,到2021年的Gopher的2800億個參數,再到2022年的MT-NLG的5300億。但是,這種一昧的增大模型參數真的是正確的選擇嗎?DeepMind在2022年的"Training Compute-Optimal Large Language Models"這篇論文給了我們很好的答案。

在固定運算資源下,如何選擇最佳參數?

圖三
選擇大模型還是大資料的問題上,DeepMind採取了一種簡單直接的方法:他們將各種規模的運算資源,配上不同的參數數量以及不同的資料量來進行訓練,並將每組的訓練結果劃在圖表上(如上圖)。
該圖表的橫軸代表的是參數數量,縱軸則是損失值。你可以將其視為錯誤率,而不同顏色的曲線代表的是不同的運算資源。我們可以看到,每種運算資源所代表的曲線都有一個最低點,這個最低點其實就代表該運算資源下,最適合的參數數量。
基於上述的結果,DeepMind進一步分析出每個運算資源下最佳訓練結果的參數量以及資料量並製作成下圖。
圖四
圖表內的橫軸代表的是運算資源,而縱軸則分別是參數數量(左圖)以及資料量(右圖)。驚人的是,運算資源與最佳的訓練參數數量與資料量呈現出一種線性等比關係。而且從圖表內各運算資源對應到的理想訓練資料量看來,不論是 GPT-3 或者 Gopher 之前訓練的資料都太小了。而該如何去驗證這樣的假設呢? 圖內的綠色基準線則是DeepMind拿來進行驗證的實驗目標。

Chinchilla與Gopher的對決

上圖中的綠色基準線實際上就是Gopher當初訓練的運算資源,DeepMind接著根據圖表上對應的參數數量(63B)以及資料量(1.4T)訓練出一個名為Chinchilla的語言模型,並直接將其與Gopher在實際任務中進行效能比較。
以下是實際比較的結果,你可以看到,Chinchilla這個規模比Gopher小很多的模型,卻因為增加了訓練資料,幾乎完全擊敗了Gopher模型(Gopher模型只贏了4個任務)。
圖五
從上述的研究結果,我們可以看到,繼續增大模型的規模已經不再具有太大的意義,更重要的反而是增加訓練資料。
這也解釋了為什麼Meta最近發布的LLaMA模型在論文開頭就直接引用這個論文,說明他們選擇使用更大的資料作為訓練基礎的原因。
圖六

我們這篇文章內的圖表都是由李宏毅老師的課程投影片中選錄截取出來的,原始投影片可參考李老師課程首頁內連接: Machine Learning 2023 Spring 很感謝李宏毅老師同意使用。
為什麼會看到廣告
avatar-img
18會員
19內容數
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Ted Chen的沙龍 的其他內容
本文探討了大型語言模型中的特殊現象,包括頓悟現象,大模型的隱藏知識引導,以及模型越大對某些問題的理解越偏離的U型曲線。文章強調,當模型不夠理想時,我們需要更好地引導模型或了解問題的本質,而非只是增加模型的大小。
本文探討大型語言模型的兩種主要類型:GPT和BERT。GPT,如ChatGPT,被視為"通才",能執行多種任務。BERT則被視為"專才"的基本語言模型。兩者各有優點:專才模型在特定任務上準確度高,而通才模型靈活多功能。選擇哪種取決於需求和目標。
本文介紹了生成式學習中的兩種策略:「各個擊破」和「一次到位」。這兩種策略在生成速度和品質之間達到平衡。為了提高速度,可以採用"N次到位"的Diffusion Model策略。在語音和影像生成中,可以結合這兩種策略以充分利用優勢。融合策略可以同時確保品質和速度,展現人工智慧的潛力。
本文深入探討機器學習的核心概念,包括迴歸、分類和生成式學習。我們解釋了如何使用特定函式來實現期望任務,並將此過程分為設定範圍、確立標準和實現目標三個階段。文章還介紹了如何使用機器學習來訓練和測試模型,並以寶可夢應用為例說明迴歸和分類問題。
這篇文章揭示了訓練GPT模型的三個核心技術:預訓練、微調及增強式學習。預訓練利用大量網路資料提供基礎能力;微調讓GPT更貼近人類思維偏好;增強式學習最終優化模型回答問題的方式。此外,多語言預訓練能讓GPT在一語言的任務學習後,自動掌握其他語言的同樣任務。
這篇文章介紹了ChatGPT,一種大型的語言模型,能以自然語言回答問題,但不透過搜尋罐頭文字或網路內容。其核心技術是自監督式學習,通過大量的網路資料進行訓練,讓模型能進行文字接龍。儘管GPT系列經歷了多次演進,並需用大量的訓練資料,它的問答能力仍有待提升。然而,透過不斷優化,我們已有了更進一步的版本
本文探討了大型語言模型中的特殊現象,包括頓悟現象,大模型的隱藏知識引導,以及模型越大對某些問題的理解越偏離的U型曲線。文章強調,當模型不夠理想時,我們需要更好地引導模型或了解問題的本質,而非只是增加模型的大小。
本文探討大型語言模型的兩種主要類型:GPT和BERT。GPT,如ChatGPT,被視為"通才",能執行多種任務。BERT則被視為"專才"的基本語言模型。兩者各有優點:專才模型在特定任務上準確度高,而通才模型靈活多功能。選擇哪種取決於需求和目標。
本文介紹了生成式學習中的兩種策略:「各個擊破」和「一次到位」。這兩種策略在生成速度和品質之間達到平衡。為了提高速度,可以採用"N次到位"的Diffusion Model策略。在語音和影像生成中,可以結合這兩種策略以充分利用優勢。融合策略可以同時確保品質和速度,展現人工智慧的潛力。
本文深入探討機器學習的核心概念,包括迴歸、分類和生成式學習。我們解釋了如何使用特定函式來實現期望任務,並將此過程分為設定範圍、確立標準和實現目標三個階段。文章還介紹了如何使用機器學習來訓練和測試模型,並以寶可夢應用為例說明迴歸和分類問題。
這篇文章揭示了訓練GPT模型的三個核心技術:預訓練、微調及增強式學習。預訓練利用大量網路資料提供基礎能力;微調讓GPT更貼近人類思維偏好;增強式學習最終優化模型回答問題的方式。此外,多語言預訓練能讓GPT在一語言的任務學習後,自動掌握其他語言的同樣任務。
這篇文章介紹了ChatGPT,一種大型的語言模型,能以自然語言回答問題,但不透過搜尋罐頭文字或網路內容。其核心技術是自監督式學習,通過大量的網路資料進行訓練,讓模型能進行文字接龍。儘管GPT系列經歷了多次演進,並需用大量的訓練資料,它的問答能力仍有待提升。然而,透過不斷優化,我們已有了更進一步的版本
你可能也想看
Google News 追蹤
大語言模型通常會生產自己的「嵌入 Embedding」作為部分的輸入層, 並且在大語言模型的訓練途中不斷優化嵌入的方式, 以對特定的任務特定的數據優化。 而大語言模型使用的「嵌入維度 Embedding Dimension」通常是高維度的, 例如最小的GPT-2模型有1億1千
Thumbnail
筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
大語言模型是一種特殊的神經網路,設計來理解,生成與回應人類的文本。 大語言模型是使用大量文本數據訓練的深度神經網路,其訓練使用的文本數據甚至包括了整個網路公開的文本。 大語言模型的「大」,體現於模型的參數個數以及其使用的訓練數據集。如此大的模型可以有百億甚至千億的參數。這些參數都是神經網
Thumbnail
自从OpenAI挑起人工智能竞赛后,各大科技公司一直在拼尽全力训练大模型。但是随着训练的模型越来越大,这些科技巨头正在面临一个新的问题,即训练语料和数据的“枯竭”。 训练数据的“枯竭” 2020年11月,OpenAI推出的GPT-3接受的数据训练为3,000亿个token。而到2023年,谷歌推
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。
Thumbnail
ChatGPT 是 OpenAI 開發的大型語言模型,以其強大的生成能力和對話能力而聞名。 ChatGPT 的訓練過程主要分為兩個階段:預訓練和微調。 微調使用了 RLHF(Reinforcement Learning from Human Feedback)技術,可以有效地提高模型生成內容的質量。
Thumbnail
大型語言模型(LLM)是基於深度學習的自然語言處理模型,而多模態模型(LMM)能處理多種資料型態。這些模型將對未來帶來重大改變。LLM 專注於理解和生成自然語言,LMM 能夠處理跨模態的內容,並整合多種資料的能力,有望成為未來趨勢。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」。 Prompt Pattern 是給予LLM的指示,並確保生成的輸出擁有特定的品質(和數量)。
Thumbnail
大語言模型(LLMs)對於任何對人工智能和自然語言處理感興趣的人來說都是一個令人興奮的領域。 這類模型,如GPT-4, 透過其龐大的數據集和複雜的參數設置, 提供了前所未有的語言理解和生成能力。 那麼,究竟是什麼讓這些模型「大」得如此不同呢?
大語言模型通常會生產自己的「嵌入 Embedding」作為部分的輸入層, 並且在大語言模型的訓練途中不斷優化嵌入的方式, 以對特定的任務特定的數據優化。 而大語言模型使用的「嵌入維度 Embedding Dimension」通常是高維度的, 例如最小的GPT-2模型有1億1千
Thumbnail
筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
大語言模型是一種特殊的神經網路,設計來理解,生成與回應人類的文本。 大語言模型是使用大量文本數據訓練的深度神經網路,其訓練使用的文本數據甚至包括了整個網路公開的文本。 大語言模型的「大」,體現於模型的參數個數以及其使用的訓練數據集。如此大的模型可以有百億甚至千億的參數。這些參數都是神經網
Thumbnail
自从OpenAI挑起人工智能竞赛后,各大科技公司一直在拼尽全力训练大模型。但是随着训练的模型越来越大,这些科技巨头正在面临一个新的问题,即训练语料和数据的“枯竭”。 训练数据的“枯竭” 2020年11月,OpenAI推出的GPT-3接受的数据训练为3,000亿个token。而到2023年,谷歌推
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。
Thumbnail
ChatGPT 是 OpenAI 開發的大型語言模型,以其強大的生成能力和對話能力而聞名。 ChatGPT 的訓練過程主要分為兩個階段:預訓練和微調。 微調使用了 RLHF(Reinforcement Learning from Human Feedback)技術,可以有效地提高模型生成內容的質量。
Thumbnail
大型語言模型(LLM)是基於深度學習的自然語言處理模型,而多模態模型(LMM)能處理多種資料型態。這些模型將對未來帶來重大改變。LLM 專注於理解和生成自然語言,LMM 能夠處理跨模態的內容,並整合多種資料的能力,有望成為未來趨勢。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」。 Prompt Pattern 是給予LLM的指示,並確保生成的輸出擁有特定的品質(和數量)。
Thumbnail
大語言模型(LLMs)對於任何對人工智能和自然語言處理感興趣的人來說都是一個令人興奮的領域。 這類模型,如GPT-4, 透過其龐大的數據集和複雜的參數設置, 提供了前所未有的語言理解和生成能力。 那麼,究竟是什麼讓這些模型「大」得如此不同呢?