生成式 AI 之 大資料的驚人發現

閱讀時間約 4 分鐘
這文章其實也是李宏毅老師 2023 年機器學習課程的個人一些學習整理,李老師上課的內容&口吻很精彩,很建議大家直接看李老師的課程影片: 完整的所有課程在這裏

在上一篇文章中,我們已探討了大模型所展現的幾種特殊現象。本篇將鎖定"大資料"為主題,跟您分享其各種令人訝異的發現。
首先,我們先來看大資料對模型有什麼根本的影響。

我們為何需要數以十億計的資料?

一般來說,若我們希望語言模型能回答問題,基本上會需要達成兩個條件。第一,模型必須能理解我們人類的語言,也就是具有對語句句法、語義的理解能力。第二,模型需要擁有我們人類的知識。
為何人類的知識認知這麼重要呢?讓我們以一個例子說明。假設有人說:「我的手剛剛被冰水燙到了」。這句話在句法上無可挑剔,但卻與我們的常識相違背。我們知道冰水不可能燙傷人,所以讓語言模型不只聽得懂我們的話,更能辨識出其中的對錯,就必須要有語法與世界知識。
在我們明確了解語法與世界知識的重要性之後,來我們來參考一篇名為"When Do You Need Billions of Words of Pretraining Data?"的論文中的一張圖表。
圖一
該圖表的橫軸代表的是資料量(字數),縱軸則是語言模型的效能。在曲線部分,藍紫色代表的是句法的學習、紫色代表的是語義部分、淺藍色則代表對我們世界知識的學習。從這張圖表我們可以觀察到,當資料量達到一百萬個字左右,語言模型就會明顯開始學習我們語言的語法;而當資料量超過十億個字後,語言模型就會開始快速累積對我們世界知識的理解。
因此,我們能從這張圖表中大概了解,若要自行訓練語言模型,大概需要多少數量的資料,以及資料量夠大時,對模型有什麼基本的影響了。

選擇大模型或大資料

在我們對大模型與大資料有基本理解後,如果我們只有固定的運算資源,應該選擇大模型還是大資料呢?
圖二
早些時候,大家都在競爭模型的規模。例如,我們可以看到如上圖,從2020年的GPT-3的1750億個參數,到2021年的Gopher的2800億個參數,再到2022年的MT-NLG的5300億。但是,這種一昧的增大模型參數真的是正確的選擇嗎?DeepMind在2022年的"Training Compute-Optimal Large Language Models"這篇論文給了我們很好的答案。

在固定運算資源下,如何選擇最佳參數?

圖三
選擇大模型還是大資料的問題上,DeepMind採取了一種簡單直接的方法:他們將各種規模的運算資源,配上不同的參數數量以及不同的資料量來進行訓練,並將每組的訓練結果劃在圖表上(如上圖)。
該圖表的橫軸代表的是參數數量,縱軸則是損失值。你可以將其視為錯誤率,而不同顏色的曲線代表的是不同的運算資源。我們可以看到,每種運算資源所代表的曲線都有一個最低點,這個最低點其實就代表該運算資源下,最適合的參數數量。
基於上述的結果,DeepMind進一步分析出每個運算資源下最佳訓練結果的參數量以及資料量並製作成下圖。
圖四
圖表內的橫軸代表的是運算資源,而縱軸則分別是參數數量(左圖)以及資料量(右圖)。驚人的是,運算資源與最佳的訓練參數數量與資料量呈現出一種線性等比關係。而且從圖表內各運算資源對應到的理想訓練資料量看來,不論是 GPT-3 或者 Gopher 之前訓練的資料都太小了。而該如何去驗證這樣的假設呢? 圖內的綠色基準線則是DeepMind拿來進行驗證的實驗目標。

Chinchilla與Gopher的對決

上圖中的綠色基準線實際上就是Gopher當初訓練的運算資源,DeepMind接著根據圖表上對應的參數數量(63B)以及資料量(1.4T)訓練出一個名為Chinchilla的語言模型,並直接將其與Gopher在實際任務中進行效能比較。
以下是實際比較的結果,你可以看到,Chinchilla這個規模比Gopher小很多的模型,卻因為增加了訓練資料,幾乎完全擊敗了Gopher模型(Gopher模型只贏了4個任務)。
圖五
從上述的研究結果,我們可以看到,繼續增大模型的規模已經不再具有太大的意義,更重要的反而是增加訓練資料。
這也解釋了為什麼Meta最近發布的LLaMA模型在論文開頭就直接引用這個論文,說明他們選擇使用更大的資料作為訓練基礎的原因。
圖六

我們這篇文章內的圖表都是由李宏毅老師的課程投影片中選錄截取出來的,原始投影片可參考李老師課程首頁內連接: Machine Learning 2023 Spring 很感謝李宏毅老師同意使用。
為什麼會看到廣告
avatar-img
18會員
19內容數
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Ted Chen的沙龍 的其他內容
本文探討了大型語言模型中的特殊現象,包括頓悟現象,大模型的隱藏知識引導,以及模型越大對某些問題的理解越偏離的U型曲線。文章強調,當模型不夠理想時,我們需要更好地引導模型或了解問題的本質,而非只是增加模型的大小。
本文探討大型語言模型的兩種主要類型:GPT和BERT。GPT,如ChatGPT,被視為"通才",能執行多種任務。BERT則被視為"專才"的基本語言模型。兩者各有優點:專才模型在特定任務上準確度高,而通才模型靈活多功能。選擇哪種取決於需求和目標。
本文介紹了生成式學習中的兩種策略:「各個擊破」和「一次到位」。這兩種策略在生成速度和品質之間達到平衡。為了提高速度,可以採用"N次到位"的Diffusion Model策略。在語音和影像生成中,可以結合這兩種策略以充分利用優勢。融合策略可以同時確保品質和速度,展現人工智慧的潛力。
本文深入探討機器學習的核心概念,包括迴歸、分類和生成式學習。我們解釋了如何使用特定函式來實現期望任務,並將此過程分為設定範圍、確立標準和實現目標三個階段。文章還介紹了如何使用機器學習來訓練和測試模型,並以寶可夢應用為例說明迴歸和分類問題。
這篇文章揭示了訓練GPT模型的三個核心技術:預訓練、微調及增強式學習。預訓練利用大量網路資料提供基礎能力;微調讓GPT更貼近人類思維偏好;增強式學習最終優化模型回答問題的方式。此外,多語言預訓練能讓GPT在一語言的任務學習後,自動掌握其他語言的同樣任務。
這篇文章介紹了ChatGPT,一種大型的語言模型,能以自然語言回答問題,但不透過搜尋罐頭文字或網路內容。其核心技術是自監督式學習,通過大量的網路資料進行訓練,讓模型能進行文字接龍。儘管GPT系列經歷了多次演進,並需用大量的訓練資料,它的問答能力仍有待提升。然而,透過不斷優化,我們已有了更進一步的版本
本文探討了大型語言模型中的特殊現象,包括頓悟現象,大模型的隱藏知識引導,以及模型越大對某些問題的理解越偏離的U型曲線。文章強調,當模型不夠理想時,我們需要更好地引導模型或了解問題的本質,而非只是增加模型的大小。
本文探討大型語言模型的兩種主要類型:GPT和BERT。GPT,如ChatGPT,被視為"通才",能執行多種任務。BERT則被視為"專才"的基本語言模型。兩者各有優點:專才模型在特定任務上準確度高,而通才模型靈活多功能。選擇哪種取決於需求和目標。
本文介紹了生成式學習中的兩種策略:「各個擊破」和「一次到位」。這兩種策略在生成速度和品質之間達到平衡。為了提高速度,可以採用"N次到位"的Diffusion Model策略。在語音和影像生成中,可以結合這兩種策略以充分利用優勢。融合策略可以同時確保品質和速度,展現人工智慧的潛力。
本文深入探討機器學習的核心概念,包括迴歸、分類和生成式學習。我們解釋了如何使用特定函式來實現期望任務,並將此過程分為設定範圍、確立標準和實現目標三個階段。文章還介紹了如何使用機器學習來訓練和測試模型,並以寶可夢應用為例說明迴歸和分類問題。
這篇文章揭示了訓練GPT模型的三個核心技術:預訓練、微調及增強式學習。預訓練利用大量網路資料提供基礎能力;微調讓GPT更貼近人類思維偏好;增強式學習最終優化模型回答問題的方式。此外,多語言預訓練能讓GPT在一語言的任務學習後,自動掌握其他語言的同樣任務。
這篇文章介紹了ChatGPT,一種大型的語言模型,能以自然語言回答問題,但不透過搜尋罐頭文字或網路內容。其核心技術是自監督式學習,通過大量的網路資料進行訓練,讓模型能進行文字接龍。儘管GPT系列經歷了多次演進,並需用大量的訓練資料,它的問答能力仍有待提升。然而,透過不斷優化,我們已有了更進一步的版本
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
11/20日NVDA即將公布最新一期的財報, 今天Sell Side的分析師, 開始調高目標價, 市場的股價也開始反應, 未來一週NVDA將重新回到美股市場的焦點, 今天我們要分析NVDA Sell Side怎麼看待這次NVDA的財報預測, 以及實際上Buy Side的倉位及操作, 從
Thumbnail
Hi 大家好,我是Ethan😊 相近大家都知道保濕是皮膚保養中最基本,也是最重要的一步。無論是在畫室裡長時間對著畫布,還是在旅途中面對各種氣候變化,保持皮膚的水分平衡對我來說至關重要。保濕化妝水不僅能迅速為皮膚補水,還能提升後續保養品的吸收效率。 曾經,我的保養程序簡單到只包括清潔和隨意上乳液
Thumbnail
在ChatGPT問世以來,大家已經感受到了生成式AI入侵各行各業的威力,但真正能夠從這個趨勢賺錢的企業,是位於價值鏈的哪個位置?一些號稱能抓到生成式AI機會的公司,會不會只是泡沫的hype實際上不可取代的程度低,做不出市場所需的差異化產品。 如果觀察上一代大型的科技循環,Mobile移動網路的趨勢,
(刊登於風傳媒,連結:www.storm.mg/article/4796622) 所以,很有意思地,為什麼在當今眾多發展的AI當中,竟然是由自然語言的大型語言模型,來讓人們驚覺有那麼一點通用人工智慧AGI的感覺和發展之可能方向。正是因為概念就藏在語言裡。
Thumbnail
去年底 ChatGPT 橫空出世,流暢的對答表現與驚人的資料統整力,讓人們震驚原來 AI 已經有如此超「人」能力。而 Midjourney 的出現,也讓很多人轉職成詠唱詩人,動動嘴就能畫好一幅畫(精準點說是打打鍵盤)。這些生成式AI 猛然打入人們的生活。
Thumbnail
學校老師如何因應 ChatGPT 等生成式AI帶來的衝擊 隨著科技的快速發展,生成式AI已經成為了教育領域的一個熱門話題。這種新興技術對國中國小教育有著潛在的重大影響,老師們需要積極面對並適應這一變革。本文將探討老師如何因應生成式AI帶來的衝擊,以及學校如何在實際應用中踏出第一步。
Thumbnail
去年阿財有分享過自動駕駛技術各個解決方案的路線選擇,當時我就有提到過我認為傳統車廠為什麼不走純視覺路線的可能原因,這邊再稍微分享一下: 首先在講純視覺之前先了解一下目前純視覺是如何計算深度的,目前用相機拍到的影像計算深度有單目視覺、雙目視覺、運動結構恢復(sfm)等再搭配AI模型,可以搜尋Pseud
Thumbnail
無論是疫情後的 PC 需求疲軟,或者是加密貨幣不再使用顯卡挖礦,都對 NVIDIA 的業績造成了巨大的影響。所幸,近期 NVIDIA 又搭上了一波新的風向,由生成式 AI 所帶動的 AI 應用熱潮,讓大家又開始對於 NVIDIA 的未來業績寄予厚望
Thumbnail
只要輸入一則推文,選個風格,就可以自動幫你生成一篇仿New York Times的文章...
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
11/20日NVDA即將公布最新一期的財報, 今天Sell Side的分析師, 開始調高目標價, 市場的股價也開始反應, 未來一週NVDA將重新回到美股市場的焦點, 今天我們要分析NVDA Sell Side怎麼看待這次NVDA的財報預測, 以及實際上Buy Side的倉位及操作, 從
Thumbnail
Hi 大家好,我是Ethan😊 相近大家都知道保濕是皮膚保養中最基本,也是最重要的一步。無論是在畫室裡長時間對著畫布,還是在旅途中面對各種氣候變化,保持皮膚的水分平衡對我來說至關重要。保濕化妝水不僅能迅速為皮膚補水,還能提升後續保養品的吸收效率。 曾經,我的保養程序簡單到只包括清潔和隨意上乳液
Thumbnail
在ChatGPT問世以來,大家已經感受到了生成式AI入侵各行各業的威力,但真正能夠從這個趨勢賺錢的企業,是位於價值鏈的哪個位置?一些號稱能抓到生成式AI機會的公司,會不會只是泡沫的hype實際上不可取代的程度低,做不出市場所需的差異化產品。 如果觀察上一代大型的科技循環,Mobile移動網路的趨勢,
(刊登於風傳媒,連結:www.storm.mg/article/4796622) 所以,很有意思地,為什麼在當今眾多發展的AI當中,竟然是由自然語言的大型語言模型,來讓人們驚覺有那麼一點通用人工智慧AGI的感覺和發展之可能方向。正是因為概念就藏在語言裡。
Thumbnail
去年底 ChatGPT 橫空出世,流暢的對答表現與驚人的資料統整力,讓人們震驚原來 AI 已經有如此超「人」能力。而 Midjourney 的出現,也讓很多人轉職成詠唱詩人,動動嘴就能畫好一幅畫(精準點說是打打鍵盤)。這些生成式AI 猛然打入人們的生活。
Thumbnail
學校老師如何因應 ChatGPT 等生成式AI帶來的衝擊 隨著科技的快速發展,生成式AI已經成為了教育領域的一個熱門話題。這種新興技術對國中國小教育有著潛在的重大影響,老師們需要積極面對並適應這一變革。本文將探討老師如何因應生成式AI帶來的衝擊,以及學校如何在實際應用中踏出第一步。
Thumbnail
去年阿財有分享過自動駕駛技術各個解決方案的路線選擇,當時我就有提到過我認為傳統車廠為什麼不走純視覺路線的可能原因,這邊再稍微分享一下: 首先在講純視覺之前先了解一下目前純視覺是如何計算深度的,目前用相機拍到的影像計算深度有單目視覺、雙目視覺、運動結構恢復(sfm)等再搭配AI模型,可以搜尋Pseud
Thumbnail
無論是疫情後的 PC 需求疲軟,或者是加密貨幣不再使用顯卡挖礦,都對 NVIDIA 的業績造成了巨大的影響。所幸,近期 NVIDIA 又搭上了一波新的風向,由生成式 AI 所帶動的 AI 應用熱潮,讓大家又開始對於 NVIDIA 的未來業績寄予厚望
Thumbnail
只要輸入一則推文,選個風格,就可以自動幫你生成一篇仿New York Times的文章...