生成式 AI 之 大資料的驚人發現

更新於 發佈於 閱讀時間約 5 分鐘

這文章其實也是李宏毅老師 2023 年機器學習課程的個人一些學習整理,李老師上課的內容&口吻很精彩,很建議大家直接看李老師的課程影片: 完整的所有課程在這裏


在上一篇文章中,我們已探討了大模型所展現的幾種特殊現象。本篇將鎖定"大資料"為主題,跟您分享其各種令人訝異的發現。

首先,我們先來看大資料對模型有什麼根本的影響。

我們為何需要數以十億計的資料?

一般來說,若我們希望語言模型能回答問題,基本上會需要達成兩個條件。第一,模型必須能理解我們人類的語言,也就是具有對語句句法、語義的理解能力。第二,模型需要擁有我們人類的知識。

為何人類的知識認知這麼重要呢?讓我們以一個例子說明。假設有人說:「我的手剛剛被冰水燙到了」。這句話在句法上無可挑剔,但卻與我們的常識相違背。我們知道冰水不可能燙傷人,所以讓語言模型不只聽得懂我們的話,更能辨識出其中的對錯,就必須要有語法與世界知識。

在我們明確了解語法與世界知識的重要性之後,來我們來參考一篇名為"When Do You Need Billions of Words of Pretraining Data?"的論文中的一張圖表。

圖一

圖一

該圖表的橫軸代表的是資料量(字數),縱軸則是語言模型的效能。在曲線部分,藍紫色代表的是句法的學習、紫色代表的是語義部分、淺藍色則代表對我們世界知識的學習。從這張圖表我們可以觀察到,當資料量達到一百萬個字左右,語言模型就會明顯開始學習我們語言的語法;而當資料量超過十億個字後,語言模型就會開始快速累積對我們世界知識的理解。

因此,我們能從這張圖表中大概了解,若要自行訓練語言模型,大概需要多少數量的資料,以及資料量夠大時,對模型有什麼基本的影響了。

選擇大模型或大資料

在我們對大模型與大資料有基本理解後,如果我們只有固定的運算資源,應該選擇大模型還是大資料呢?

圖二

圖二

早些時候,大家都在競爭模型的規模。例如,我們可以看到如上圖,從2020年的GPT-3的1750億個參數,到2021年的Gopher的2800億個參數,再到2022年的MT-NLG的5300億。但是,這種一昧的增大模型參數真的是正確的選擇嗎?DeepMind在2022年的"Training Compute-Optimal Large Language Models"這篇論文給了我們很好的答案。

在固定運算資源下,如何選擇最佳參數?

圖三

圖三

選擇大模型還是大資料的問題上,DeepMind採取了一種簡單直接的方法:他們將各種規模的運算資源,配上不同的參數數量以及不同的資料量來進行訓練,並將每組的訓練結果劃在圖表上(如上圖)。

該圖表的橫軸代表的是參數數量,縱軸則是損失值。你可以將其視為錯誤率,而不同顏色的曲線代表的是不同的運算資源。我們可以看到,每種運算資源所代表的曲線都有一個最低點,這個最低點其實就代表該運算資源下,最適合的參數數量。

基於上述的結果,DeepMind進一步分析出每個運算資源下最佳訓練結果的參數量以及資料量並製作成下圖。

圖四

圖四

圖表內的橫軸代表的是運算資源,而縱軸則分別是參數數量(左圖)以及資料量(右圖)。驚人的是,運算資源與最佳的訓練參數數量與資料量呈現出一種線性等比關係。而且從圖表內各運算資源對應到的理想訓練資料量看來,不論是 GPT-3 或者 Gopher 之前訓練的資料都太小了。而該如何去驗證這樣的假設呢? 圖內的綠色基準線則是DeepMind拿來進行驗證的實驗目標。

Chinchilla與Gopher的對決

上圖中的綠色基準線實際上就是Gopher當初訓練的運算資源,DeepMind接著根據圖表上對應的參數數量(63B)以及資料量(1.4T)訓練出一個名為Chinchilla的語言模型,並直接將其與Gopher在實際任務中進行效能比較。

以下是實際比較的結果,你可以看到,Chinchilla這個規模比Gopher小很多的模型,卻因為增加了訓練資料,幾乎完全擊敗了Gopher模型(Gopher模型只贏了4個任務)。

圖五

圖五

從上述的研究結果,我們可以看到,繼續增大模型的規模已經不再具有太大的意義,更重要的反而是增加訓練資料。

這也解釋了為什麼Meta最近發布的LLaMA模型在論文開頭就直接引用這個論文,說明他們選擇使用更大的資料作為訓練基礎的原因。

圖六

圖六


我們這篇文章內的圖表都是由李宏毅老師的課程投影片中選錄截取出來的,原始投影片可參考李老師課程首頁內連接: Machine Learning 2023 Spring 很感謝李宏毅老師同意使用。


留言
avatar-img
留言分享你的想法!
avatar-img
Ted Chen的沙龍
18會員
19內容數
Ted Chen的沙龍的其他內容
2023/08/04
本篇文章深入探討了如何評估模糊訊息在對話系統開發中的它的品質驗證方式,並且使用了類似Rubic評分準則的方法來評估回覆訊息。也介紹了專家回覆與實際回覆比較的評估方式。文章最終目的希望能讓讀者具備開發自己的對話機器人的知識。
Thumbnail
2023/08/04
本篇文章深入探討了如何評估模糊訊息在對話系統開發中的它的品質驗證方式,並且使用了類似Rubic評分準則的方法來評估回覆訊息。也介紹了專家回覆與實際回覆比較的評估方式。文章最終目的希望能讓讀者具備開發自己的對話機器人的知識。
Thumbnail
2023/07/28
此文針對對話系統的持續開發和改進過程進行詳細解說,尤其在提示訊息的設計與驗證方面。以大賣場的銷售助理為例,我們設計了提示訊息,進行多次測試與調整,確保回應結果符合預期。透過建立測試集和評估函式,我們實現了批次驗證,確保所有測試項目的有效性。
Thumbnail
2023/07/28
此文針對對話系統的持續開發和改進過程進行詳細解說,尤其在提示訊息的設計與驗證方面。以大賣場的銷售助理為例,我們設計了提示訊息,進行多次測試與調整,確保回應結果符合預期。透過建立測試集和評估函式,我們實現了批次驗證,確保所有測試項目的有效性。
Thumbnail
2023/07/21
本篇文章探討如何整合大型語言模型與外部程式與資源來生成回應訊息。我們使用OpenAI的Moderation API來確認內容的合適性,並使用新的提示來評估是否真正解答了使用者的疑問。整體流程的匯整讓我們一覽全貌。我們將在下一篇文章中分享更多有關回應訊息評估的細節。
Thumbnail
2023/07/21
本篇文章探討如何整合大型語言模型與外部程式與資源來生成回應訊息。我們使用OpenAI的Moderation API來確認內容的合適性,並使用新的提示來評估是否真正解答了使用者的疑問。整體流程的匯整讓我們一覽全貌。我們將在下一篇文章中分享更多有關回應訊息評估的細節。
Thumbnail
看更多
你可能也想看
Thumbnail
沙龍一直是創作與交流的重要空間,這次 vocus 全面改版了沙龍介面,就是為了讓好內容被好好看見! 你可以自由編排你的沙龍首頁版位,新版手機介面也讓每位訪客都能更快找到感興趣的內容、成為你的支持者。 改版完成後可以在社群媒體分享新版面,並標記 @vocus.official⁠ ♥️ ⁠
Thumbnail
沙龍一直是創作與交流的重要空間,這次 vocus 全面改版了沙龍介面,就是為了讓好內容被好好看見! 你可以自由編排你的沙龍首頁版位,新版手機介面也讓每位訪客都能更快找到感興趣的內容、成為你的支持者。 改版完成後可以在社群媒體分享新版面,並標記 @vocus.official⁠ ♥️ ⁠
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
ChatGPT 是 OpenAI 開發的大型語言模型,以其強大的生成能力和對話能力而聞名。 ChatGPT 的訓練過程主要分為兩個階段:預訓練和微調。 微調使用了 RLHF(Reinforcement Learning from Human Feedback)技術,可以有效地提高模型生成內容的質量。
Thumbnail
ChatGPT 是 OpenAI 開發的大型語言模型,以其強大的生成能力和對話能力而聞名。 ChatGPT 的訓練過程主要分為兩個階段:預訓練和微調。 微調使用了 RLHF(Reinforcement Learning from Human Feedback)技術,可以有效地提高模型生成內容的質量。
Thumbnail
雖然AI在許多領域展現出驚人的能力,如圖像生成、語言理解、棋藝、駕駛等,但從更深層次看,AI的核心仍是模式匹配和數據組合。AI不能真正理解語意,也缺乏人類的創造力。 進一步分析了GPT等語言模型的技術原理,認為其實質上是從大量文本中學習Words組合規則,而非真正理解文本意思。這導致AI展現出諸如
Thumbnail
雖然AI在許多領域展現出驚人的能力,如圖像生成、語言理解、棋藝、駕駛等,但從更深層次看,AI的核心仍是模式匹配和數據組合。AI不能真正理解語意,也缺乏人類的創造力。 進一步分析了GPT等語言模型的技術原理,認為其實質上是從大量文本中學習Words組合規則,而非真正理解文本意思。這導致AI展現出諸如
Thumbnail
人工智能聊天機器人現在非常方便,我們可以隨意的讓他生成部落格,email ,信件格式,運動計畫,書本段落標題等等,節省無數工作的時間。 不過,在使用人工智能來產生文章的時候,我們需要有一些考核的指標,來選擇最適合我們的AI工具。
Thumbnail
人工智能聊天機器人現在非常方便,我們可以隨意的讓他生成部落格,email ,信件格式,運動計畫,書本段落標題等等,節省無數工作的時間。 不過,在使用人工智能來產生文章的時候,我們需要有一些考核的指標,來選擇最適合我們的AI工具。
Thumbnail
AI浪潮 自從去年ChatGPT後,AI這個本來沉寂已久的話題,瞬間火爆全世界,不論是各家各戶開始瘋狂訓練自己的大語言模型與基礎模型,包含法國的Bloom、Meta的LLaMA、AWS的Titan、Google的LaMDA等等,抑或是開始推出自己的生成式AI工具等等,例如Google的Bard、百
Thumbnail
AI浪潮 自從去年ChatGPT後,AI這個本來沉寂已久的話題,瞬間火爆全世界,不論是各家各戶開始瘋狂訓練自己的大語言模型與基礎模型,包含法國的Bloom、Meta的LLaMA、AWS的Titan、Google的LaMDA等等,抑或是開始推出自己的生成式AI工具等等,例如Google的Bard、百
Thumbnail
本文探討大資料對模型的影響。研究指出,大資料量對模型的語法和世界知識理解有顯著影響。固定運算資源下,DeepMind發現適應參數數量更重要,這使模型Chinchilla以較小規模但更多訓練資料,在實際任務中優於Gopher模型。這說明增大模型的規模已不具有太大意義,應增加訓練資料。
Thumbnail
本文探討大資料對模型的影響。研究指出,大資料量對模型的語法和世界知識理解有顯著影響。固定運算資源下,DeepMind發現適應參數數量更重要,這使模型Chinchilla以較小規模但更多訓練資料,在實際任務中優於Gopher模型。這說明增大模型的規模已不具有太大意義,應增加訓練資料。
Thumbnail
正文1,724字,主要跟你分享未來 AI 變更強更效率的兩個層面──數據與模型框架。你會從實務者的觀點,知道數據跟 AI (或機器學習模型) 表現間的關係;了解 ChatGPT 為什麼有運算資源的困擾;同時,你也會看到目前最新改善 AI 運算速度的技術發表。
Thumbnail
正文1,724字,主要跟你分享未來 AI 變更強更效率的兩個層面──數據與模型框架。你會從實務者的觀點,知道數據跟 AI (或機器學習模型) 表現間的關係;了解 ChatGPT 為什麼有運算資源的困擾;同時,你也會看到目前最新改善 AI 運算速度的技術發表。
Thumbnail
[進行中未完成] 1.簡介 本文旨在讓沒有計算機科學背景的人對ChatGPT和類似的人工智能系統 (如GPT-3、GPT-4、Bing Chat、Bard等)有一些了解。 ChatGPT是一種聊天機器人,是建立在大型語言模型之上的對話型人工智能。專業術語可能會讓人感到陌生,但此文將一一解釋這些概念。
Thumbnail
[進行中未完成] 1.簡介 本文旨在讓沒有計算機科學背景的人對ChatGPT和類似的人工智能系統 (如GPT-3、GPT-4、Bing Chat、Bard等)有一些了解。 ChatGPT是一種聊天機器人,是建立在大型語言模型之上的對話型人工智能。專業術語可能會讓人感到陌生,但此文將一一解釋這些概念。
Thumbnail
本文回答幾個問題:(一) 什麼叫做湧現;(二)湧現是什麼現象;(三)為什麼我們造不出自己的超級 AI。看完後,你會理解現在 AI 的現象跟趨勢、一些技術與專有名詞,像是參數、大型機構與他們模型的名字。
Thumbnail
本文回答幾個問題:(一) 什麼叫做湧現;(二)湧現是什麼現象;(三)為什麼我們造不出自己的超級 AI。看完後,你會理解現在 AI 的現象跟趨勢、一些技術與專有名詞,像是參數、大型機構與他們模型的名字。
Thumbnail
這篇文放草稿太久了,放到連GPT4都生出來了。不過沒差,內容通用。 在系列文第一篇,就提到了GPT框架中有對人類語意回饋的學習機制。這機制有個專有名詞,叫強化學習 (Reinforcement Learning)。這讓機器不純粹依著既有資料模式,優化並生成預測;反而讓機器有更強的能力,去因應不同環境
Thumbnail
這篇文放草稿太久了,放到連GPT4都生出來了。不過沒差,內容通用。 在系列文第一篇,就提到了GPT框架中有對人類語意回饋的學習機制。這機制有個專有名詞,叫強化學習 (Reinforcement Learning)。這讓機器不純粹依著既有資料模式,優化並生成預測;反而讓機器有更強的能力,去因應不同環境
Thumbnail
什麼是LLM? 根據Meta AI的文章提到,大型語言模型是具有超過 1,000 億個參數的自然語言處理(natural language processing,NLP)系統,經過大量文字訓練,能夠閱讀並回答問題或者生成新的文字。 同時LLM們,不一定只能去產新的文字,而是端看參數是什麼,如果參數的
Thumbnail
什麼是LLM? 根據Meta AI的文章提到,大型語言模型是具有超過 1,000 億個參數的自然語言處理(natural language processing,NLP)系統,經過大量文字訓練,能夠閱讀並回答問題或者生成新的文字。 同時LLM們,不一定只能去產新的文字,而是端看參數是什麼,如果參數的
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News