Andrej Karpathy LLMs 筆記

更新於 發佈於 閱讀時間約 8 分鐘

TL;DR


影片介紹了當今 LLMs (Large language models) 的訓練與使用,其中包括了資料收集與標注,以及訓練的三大階段。 Andrej 不過度深究單一模塊,同時把各個階段的核心概念講解得十分清楚。


倒數第二部分作者推薦了一些吸收新知的平台,以及他認為好用的開發、部署工具。


我認為本片適合本來就在 AI 領域的工作者、學者,可以拿來複習基礎概念,也可以順便檢驗自己是否有遺漏掉的知識。這部影片也適合剛踏入 AI 領域的新手,作者用淺顯易懂的圖片及語言把整個 LLMs 的流程走過一次。



前言


前一個小時左右作者詳細介紹了訓練 LLMs 時常見的數據收集、處理方式。對於 tokenization 的部分著墨較多。


同時,作者介紹了 pre-training 與 post-training 的概念與對比,也介紹 training 與 inference 。對於 Transformer 基本原理不熟悉的話這邊可以學到很多。



Hallucination (幻覺)


此篇章作者用 LLaMA3 論文來說明 Meta 是如何處理 LLMs 亂講話的問題。他用以下比喻來說明 LLMs 的記憶功能


  • Knowledge in the parameters: 模糊的記憶(e.g. 就像人類一個月前讀過的書)


  • Knowledge in the context window: 人類的 working memory



Knowledge of self (自我認知)


作者認為若知道 LLMs 背後運行的知識,問模型:「你是誰?」這個問題有點愚蠢。但太多人喜歡問這類問題,就像 DeepSeek 剛推出時因為沒處理好這題,被很多人拿出來嘲諷了一番。要妥善解決此問題,有以下兩個方法:


  1. By finetuning


  1. By system message



Models need tokens to think


為何模型需要時間、需要 intermediate result 以達到更好的結果呢?作者從 Transformer 的架構本身來回答這個問題。


對於標註者來說,需要特別注意一些細節。舉例來說,若


Question = Human: "Emily buys 3 apples and 2 oranges. Each orange costs $2. The total cost of all the fruit is $13. What is the cost of apples?"


選項 A:"The answer is $3. This is because 2 oranges at $2 are $4 total. So the 3 apples cost $9, and therefore each apple is 9/3 = $3."


選項 B:"The total cost of the oranges is $4. 13 - 4 = 9, the cost of the 3 apples is $9. 9/3 = 3, so each apple costs $3. The answer is $3."


後者顯然比前者好上一大截。


我們在使用 o1, o3 這類型的模型時,可以明顯看到有很多 intermediate result (註: OpenAI 只有列出部分中間結果, DeepSeek 目前會列出所有中間思考過程)。要特別注意,這些 intermediate result 是給模型看的,不是給你看的😁



Jagged intelligence


目前的模型可以解決數奧的難題,對於 9.9 與 9.11 誰比較大這樣的問題卻不一定可以答對。


作者建議我們不要全然相信目前的 LLMs ,我們要做的是把它當成工具使用,而非直接把結果複製貼上。



Supervised finetuning to reinforcement learning


一般來說, LLMs 的訓練有三階段,作者用教科書的例子來讓大家這三個階段分別在做什麼:


  1. Pre-training:就像教科書裡面的文字敘述。此部分提供 LLMs 各類型的背景知識。


  1. Supervised finetuning:如同課本上的範例題,有提供詳解。此部分讓 LLMs 學習、模擬人類的解題方法。


  1. Reinforcement Learning:課本每個章節後面的練習題,沒有解答。這部分其實就是一直 trail & error ,試到正確(可接受)為止。


Reinforcement learning


在此階段,我們只重視 LLMs 是否回答正確(可接受),我們不在乎他的思考、推理過程。因此,我們也不會在此階段的訓練數據中提供詳解, LLMs 需要自己學出(想出)解答。


DeepSeek-R1


作者認為,目前 Pre-training 以及 SFT 的方式都已經相當公式化了,各家公司相差最大的是 RL 階段,這部分的概念雖然簡單,但實際上有很多數學上的細節可以探討,而這些微小差異會對模型最終行為產生巨大影響。


作者此處詳細探討了 DeepSeek 論文中的某章節中的結果。RL 階段中,隨著愈來愈多的 iterations ,模型產出愈來愈長的結果,最終表現也愈來愈好。而愈來愈長的結果是因為中間結果愈來愈多,但這些中間結果很多都是這種 "Wait, wait. Wait. That's an aha moment I can flag here. Let's reevaluate this step-by-step to identify if the correct sum can be..." 。如果是單純使用 SFT 訓練, human annotator 不可能這麼標注數據的。 RL 非常重要。


Andrej 說 Google AI Studio 介面很醜,因為 Google 就是沒有能力把它做漂亮😅


他用了 AlphaGO move 37 來舉例。當初這步棋讓全世界驚嘆了一下,事後來看是絕世好棋,但當下全世界沒有人這麼認為(有興趣可以去搜尋一下 move 37)。 如果不用 RL 只用人類標注數據, AI 永遠無法超越人類水平,最多只能逼近人類最佳水平。


Reinforement learning from human feedback (RLHF)


只靠人類來做 RL 是不切實際的,因為人力有限。另外,有些任務很難衡量好壞(e.g. 這則笑話是否好笑?這首詩寫得好不好?)因此學者們使用了一個額外的 reward model 來做這件事。這個做法可以在統計上逼近人類裁判。


好處:我們可以讓 LLMs 運行在所有任務上,對於人類而言,選擇題比問答題簡單太多了(就像我們當學生時寫考卷一樣)。我們可以輕易判斷五則笑話中哪一則最好笑,卻很難幫單一則笑話打出分數。


壞處:RL 這個算法很容易鑽漏洞,尤其當它的裁判是另一個神經網路時(reward model)。目前的做法是 early stopping 。


本段落作者給出五條使用當前 AI tools 的建議與提醒:


  1. 要知道你的工具會出錯,它不是完美的。


  1. 記得每次都要檢查它產出的結果。


  1. 把它當成一種工具。


  1. 用它來激發靈感。


  1. 用它來完成初稿。



在不久的將來


我們高機率會看到:


  1. 多模態 Multimodal (語音、圖片、文字、自然語言對話)


  1. Task -> Agent


  1. Pervasive, Invisible 。接下來的 LLMs 會在背景默默的調用各類工具(e.g. 計算機、python、各類繪圖工具、另外的模型......等等)


  1. Test-time training



如何學習 LLMs 最新的知識


  1. Reference https://lmarena.ai/


  1. Subscribe to https://buttondown.com/ainews


  1. X / Twitter



如何找到最新推出的 LLMs


  1. Proprietary models:直接去各公司的官網找(e.g. OpenAI, Anthropic, DeepSeek)


  1. Open weights models (DeepSeek, Llama): an inference provider, e.g. TogetherAI


  1. 在自己的電腦運行。 e.g. LMStudio




Reference



留言
avatar-img
留言分享你的想法!
近期台灣上市了兩本關於 NVIDIA 的書籍《NVIDIA輝達之道》與《黃仁勳傳》,本文嘗試從不同觀點分析並比較兩書。
「欸,你相信上帝嗎?我知道這問題牽涉到個人隱私。我跟你說,我相信。我覺得祂好厲害,居然創造出相對論這種東西。你不覺得嗎?移動速度愈快,經歷的時間就愈短。你知道嗎,感覺就像祂邀請我們去探索宇宙一樣。」
是一本關於理財的書,但它更多的是在談論人生。 人活著是為了什麼?多數人都有自己的答案,也有可能根本沒人知道答案。晃晃悠悠數十載,我們終究只是頂著一副日漸老去的皮囊來世間走一走。對此,作者給出了他的答案:「你的人生,就是體驗的加總。」
5/5《別把你的錢留到死》
上一篇文章提到,資產配置對整體報酬率的影響超過 90%。在本篇文章中會詳細說明一種最基本、簡約的資產配置比例,以及為何要這麼配置的原因。
在這篇文章中,分享了我在投資股市時的一些教訓,以及我如何選擇適合自己的資產配置方法。分享了複利的力量、讓錢幫忙賺錢的概念,以及如何分散風險。同時指出人性偏誤與概念在投資中的影響,並提到了適合與不適合這個投資方法的人。
近期台灣上市了兩本關於 NVIDIA 的書籍《NVIDIA輝達之道》與《黃仁勳傳》,本文嘗試從不同觀點分析並比較兩書。
「欸,你相信上帝嗎?我知道這問題牽涉到個人隱私。我跟你說,我相信。我覺得祂好厲害,居然創造出相對論這種東西。你不覺得嗎?移動速度愈快,經歷的時間就愈短。你知道嗎,感覺就像祂邀請我們去探索宇宙一樣。」
是一本關於理財的書,但它更多的是在談論人生。 人活著是為了什麼?多數人都有自己的答案,也有可能根本沒人知道答案。晃晃悠悠數十載,我們終究只是頂著一副日漸老去的皮囊來世間走一走。對此,作者給出了他的答案:「你的人生,就是體驗的加總。」
5/5《別把你的錢留到死》
上一篇文章提到,資產配置對整體報酬率的影響超過 90%。在本篇文章中會詳細說明一種最基本、簡約的資產配置比例,以及為何要這麼配置的原因。
在這篇文章中,分享了我在投資股市時的一些教訓,以及我如何選擇適合自己的資產配置方法。分享了複利的力量、讓錢幫忙賺錢的概念,以及如何分散風險。同時指出人性偏誤與概念在投資中的影響,並提到了適合與不適合這個投資方法的人。
本篇參與的主題活動
「送禮」是電商業界的月經文,是不是就要拿出來討論,但總會有一種聲音:「送貨地址填朋友家就可以了吧?」所以電商做送禮業務一直讓人覺得有點多此一舉。 令人意外的是,在電商環境時移勢易的今天,送禮卻成了淘寶解決當前電商難題的一劑良藥。
全新 vocus 挑戰活動「方格人氣王」來啦~四大挑戰任你選,留言 / 愛心 / 瀏覽數大 PK,還有新手專屬挑戰!無論你是 vocus 上活躍創作者或剛加入的新手,都有機會被更多人看見,獲得站上版位曝光&豐富獎勵!🏆
流浪者,不是在流浪就是在準備流浪的路上。 平常肉身被困在辦公室的時候,只能用Google map靈魂旅行,於是知道許許多多的冷門國家,總是好奇在世界另一個角落的人是怎麼生活的。 某次看到一則新聞:一天之內跨年兩次。狂男在雪梨跨年完後直接飛到庫克群島再跨年一次,才知道世界上有一個這樣的國家(狂
有位學生曾問我:該怎麼創作內容? ​ 這問題,讓我想起 村上春樹 的「寫作秘密」 ;村上春樹,早期開始寫小說,一直有個困擾,他腦中畫面太多,情緒也太滿,結果一寫下去——卻是密密麻麻的形容詞、冗長的對白、複雜的句子...
此篇文章提供寶可夢集換式卡牌遊戲最新擴充包的資訊,包含上線日期、特色卡牌、活動內容、新周邊以及收集建議等,幫助玩家做好準備迎接新卡包。
田中達也的微縮攝影,不只是童趣,而是一場日常物件的顛覆性變革。 他運用日本「見立」概念,將筷子變成跳高竿、刮鬍刀變雪山,創造出全新視角的奇幻世界。本篇文章深入解析他的視覺傳達、創意思維與高產法則,探索他如何將設計發想課的思維融入日常,透過每天一張作品,將創意變成生活習慣。快來揭開這場微縮藝術的秘密!
「送禮」是電商業界的月經文,是不是就要拿出來討論,但總會有一種聲音:「送貨地址填朋友家就可以了吧?」所以電商做送禮業務一直讓人覺得有點多此一舉。 令人意外的是,在電商環境時移勢易的今天,送禮卻成了淘寶解決當前電商難題的一劑良藥。
全新 vocus 挑戰活動「方格人氣王」來啦~四大挑戰任你選,留言 / 愛心 / 瀏覽數大 PK,還有新手專屬挑戰!無論你是 vocus 上活躍創作者或剛加入的新手,都有機會被更多人看見,獲得站上版位曝光&豐富獎勵!🏆
流浪者,不是在流浪就是在準備流浪的路上。 平常肉身被困在辦公室的時候,只能用Google map靈魂旅行,於是知道許許多多的冷門國家,總是好奇在世界另一個角落的人是怎麼生活的。 某次看到一則新聞:一天之內跨年兩次。狂男在雪梨跨年完後直接飛到庫克群島再跨年一次,才知道世界上有一個這樣的國家(狂
有位學生曾問我:該怎麼創作內容? ​ 這問題,讓我想起 村上春樹 的「寫作秘密」 ;村上春樹,早期開始寫小說,一直有個困擾,他腦中畫面太多,情緒也太滿,結果一寫下去——卻是密密麻麻的形容詞、冗長的對白、複雜的句子...
此篇文章提供寶可夢集換式卡牌遊戲最新擴充包的資訊,包含上線日期、特色卡牌、活動內容、新周邊以及收集建議等,幫助玩家做好準備迎接新卡包。
田中達也的微縮攝影,不只是童趣,而是一場日常物件的顛覆性變革。 他運用日本「見立」概念,將筷子變成跳高竿、刮鬍刀變雪山,創造出全新視角的奇幻世界。本篇文章深入解析他的視覺傳達、創意思維與高產法則,探索他如何將設計發想課的思維融入日常,透過每天一張作品,將創意變成生活習慣。快來揭開這場微縮藝術的秘密!
你可能也想看
Google News 追蹤
Thumbnail
全新 vocus 挑戰活動「方格人氣王」來啦~四大挑戰任你選,留言 / 愛心 / 瀏覽數大 PK,還有新手專屬挑戰!無論你是 vocus 上活躍創作者或剛加入的新手,都有機會被更多人看見,獲得站上版位曝光&豐富獎勵!🏆
Thumbnail
本文探討AI筆記工具的優缺點、選擇建議及未來趨勢,比較NotebookLM、OneNote+Copilot、Notion AI、Obsidian+GPT插件和Palantir Foundry等工具,並強調安全注意事項及個人需求評估的重要性。
Thumbnail
全方位分析脫離繼承戰的方法,大膽猜測誰會成為卡丁國下一任國王。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
本系列將討論 LLM 時代中,分散 ML workload 的各種方法。作為系列的第一篇,我們將提及 High-level 的概論,譬如分散式訓練的各種切法、Model Parallelism 的相依問題,以及改善 Network Topology 等課題。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference
Thumbnail
在AI時代中,GPT技術正在改變我們的生活。然而,SLM(小型語言模型)也開始受到關注,具有更高的效率、更低的資源消耗和更快的響應速度。這篇文章將討論LLM和SLM的比較、SLM的應用場景以及未來的發展趨勢。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。
Thumbnail
大型語言模型(LLM)是基於深度學習的自然語言處理模型,而多模態模型(LMM)能處理多種資料型態。這些模型將對未來帶來重大改變。LLM 專注於理解和生成自然語言,LMM 能夠處理跨模態的內容,並整合多種資料的能力,有望成為未來趨勢。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」。 Prompt Pattern 是給予LLM的指示,並確保生成的輸出擁有特定的品質(和數量)。
Thumbnail
大語言模型(LLMs)對於任何對人工智能和自然語言處理感興趣的人來說都是一個令人興奮的領域。 這類模型,如GPT-4, 透過其龐大的數據集和複雜的參數設置, 提供了前所未有的語言理解和生成能力。 那麼,究竟是什麼讓這些模型「大」得如此不同呢?
Thumbnail
對於熱衷於語言科技的你, 大語言模型(LLMs)在自然語言處理(NLP)領域的發展無疑是一個革命性的進展。 從傳統的規則系統到基於深度學習的方法, LLMs展現了在理解、生成和翻譯人類語言方面的巨大突破。 這不僅是技術上的飛躍, 更是開啟了新的應用和可能性。 下面將介紹這一變革帶來的三大
Thumbnail
全新 vocus 挑戰活動「方格人氣王」來啦~四大挑戰任你選,留言 / 愛心 / 瀏覽數大 PK,還有新手專屬挑戰!無論你是 vocus 上活躍創作者或剛加入的新手,都有機會被更多人看見,獲得站上版位曝光&豐富獎勵!🏆
Thumbnail
本文探討AI筆記工具的優缺點、選擇建議及未來趨勢,比較NotebookLM、OneNote+Copilot、Notion AI、Obsidian+GPT插件和Palantir Foundry等工具,並強調安全注意事項及個人需求評估的重要性。
Thumbnail
全方位分析脫離繼承戰的方法,大膽猜測誰會成為卡丁國下一任國王。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
本系列將討論 LLM 時代中,分散 ML workload 的各種方法。作為系列的第一篇,我們將提及 High-level 的概論,譬如分散式訓練的各種切法、Model Parallelism 的相依問題,以及改善 Network Topology 等課題。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference
Thumbnail
在AI時代中,GPT技術正在改變我們的生活。然而,SLM(小型語言模型)也開始受到關注,具有更高的效率、更低的資源消耗和更快的響應速度。這篇文章將討論LLM和SLM的比較、SLM的應用場景以及未來的發展趨勢。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。
Thumbnail
大型語言模型(LLM)是基於深度學習的自然語言處理模型,而多模態模型(LMM)能處理多種資料型態。這些模型將對未來帶來重大改變。LLM 專注於理解和生成自然語言,LMM 能夠處理跨模態的內容,並整合多種資料的能力,有望成為未來趨勢。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」。 Prompt Pattern 是給予LLM的指示,並確保生成的輸出擁有特定的品質(和數量)。
Thumbnail
大語言模型(LLMs)對於任何對人工智能和自然語言處理感興趣的人來說都是一個令人興奮的領域。 這類模型,如GPT-4, 透過其龐大的數據集和複雜的參數設置, 提供了前所未有的語言理解和生成能力。 那麼,究竟是什麼讓這些模型「大」得如此不同呢?
Thumbnail
對於熱衷於語言科技的你, 大語言模型(LLMs)在自然語言處理(NLP)領域的發展無疑是一個革命性的進展。 從傳統的規則系統到基於深度學習的方法, LLMs展現了在理解、生成和翻譯人類語言方面的巨大突破。 這不僅是技術上的飛躍, 更是開啟了新的應用和可能性。 下面將介紹這一變革帶來的三大