Andrej Karpathy LLMs 筆記

更新於 發佈於 閱讀時間約 8 分鐘

TL;DR


影片介紹了當今 LLMs (Large language models) 的訓練與使用,其中包括了資料收集與標注,以及訓練的三大階段。 Andrej 不過度深究單一模塊,同時把各個階段的核心概念講解得十分清楚。


倒數第二部分作者推薦了一些吸收新知的平台,以及他認為好用的開發、部署工具。


我認為本片適合本來就在 AI 領域的工作者、學者,可以拿來複習基礎概念,也可以順便檢驗自己是否有遺漏掉的知識。這部影片也適合剛踏入 AI 領域的新手,作者用淺顯易懂的圖片及語言把整個 LLMs 的流程走過一次。



前言


前一個小時左右作者詳細介紹了訓練 LLMs 時常見的數據收集、處理方式。對於 tokenization 的部分著墨較多。


同時,作者介紹了 pre-training 與 post-training 的概念與對比,也介紹 training 與 inference 。對於 Transformer 基本原理不熟悉的話這邊可以學到很多。



Hallucination (幻覺)


此篇章作者用 LLaMA3 論文來說明 Meta 是如何處理 LLMs 亂講話的問題。他用以下比喻來說明 LLMs 的記憶功能


  • Knowledge in the parameters: 模糊的記憶(e.g. 就像人類一個月前讀過的書)


  • Knowledge in the context window: 人類的 working memory



Knowledge of self (自我認知)


作者認為若知道 LLMs 背後運行的知識,問模型:「你是誰?」這個問題有點愚蠢。但太多人喜歡問這類問題,就像 DeepSeek 剛推出時因為沒處理好這題,被很多人拿出來嘲諷了一番。要妥善解決此問題,有以下兩個方法:


  1. By finetuning


  1. By system message



Models need tokens to think


為何模型需要時間、需要 intermediate result 以達到更好的結果呢?作者從 Transformer 的架構本身來回答這個問題。


對於標註者來說,需要特別注意一些細節。舉例來說,若


Question = Human: "Emily buys 3 apples and 2 oranges. Each orange costs $2. The total cost of all the fruit is $13. What is the cost of apples?"


選項 A:"The answer is $3. This is because 2 oranges at $2 are $4 total. So the 3 apples cost $9, and therefore each apple is 9/3 = $3."


選項 B:"The total cost of the oranges is $4. 13 - 4 = 9, the cost of the 3 apples is $9. 9/3 = 3, so each apple costs $3. The answer is $3."


後者顯然比前者好上一大截。


我們在使用 o1, o3 這類型的模型時,可以明顯看到有很多 intermediate result (註: OpenAI 只有列出部分中間結果, DeepSeek 目前會列出所有中間思考過程)。要特別注意,這些 intermediate result 是給模型看的,不是給你看的😁



Jagged intelligence


目前的模型可以解決數奧的難題,對於 9.9 與 9.11 誰比較大這樣的問題卻不一定可以答對。


作者建議我們不要全然相信目前的 LLMs ,我們要做的是把它當成工具使用,而非直接把結果複製貼上。



Supervised finetuning to reinforcement learning


一般來說, LLMs 的訓練有三階段,作者用教科書的例子來讓大家這三個階段分別在做什麼:


  1. Pre-training:就像教科書裡面的文字敘述。此部分提供 LLMs 各類型的背景知識。


  1. Supervised finetuning:如同課本上的範例題,有提供詳解。此部分讓 LLMs 學習、模擬人類的解題方法。


  1. Reinforcement Learning:課本每個章節後面的練習題,沒有解答。這部分其實就是一直 trail & error ,試到正確(可接受)為止。


Reinforcement learning


在此階段,我們只重視 LLMs 是否回答正確(可接受),我們不在乎他的思考、推理過程。因此,我們也不會在此階段的訓練數據中提供詳解, LLMs 需要自己學出(想出)解答。


DeepSeek-R1


作者認為,目前 Pre-training 以及 SFT 的方式都已經相當公式化了,各家公司相差最大的是 RL 階段,這部分的概念雖然簡單,但實際上有很多數學上的細節可以探討,而這些微小差異會對模型最終行為產生巨大影響。


作者此處詳細探討了 DeepSeek 論文中的某章節中的結果。RL 階段中,隨著愈來愈多的 iterations ,模型產出愈來愈長的結果,最終表現也愈來愈好。而愈來愈長的結果是因為中間結果愈來愈多,但這些中間結果很多都是這種 "Wait, wait. Wait. That's an aha moment I can flag here. Let's reevaluate this step-by-step to identify if the correct sum can be..." 。如果是單純使用 SFT 訓練, human annotator 不可能這麼標注數據的。 RL 非常重要。


Andrej 說 Google AI Studio 介面很醜,因為 Google 就是沒有能力把它做漂亮😅


他用了 AlphaGO move 37 來舉例。當初這步棋讓全世界驚嘆了一下,事後來看是絕世好棋,但當下全世界沒有人這麼認為(有興趣可以去搜尋一下 move 37)。 如果不用 RL 只用人類標注數據, AI 永遠無法超越人類水平,最多只能逼近人類最佳水平。


Reinforement learning from human feedback (RLHF)


只靠人類來做 RL 是不切實際的,因為人力有限。另外,有些任務很難衡量好壞(e.g. 這則笑話是否好笑?這首詩寫得好不好?)因此學者們使用了一個額外的 reward model 來做這件事。這個做法可以在統計上逼近人類裁判。


好處:我們可以讓 LLMs 運行在所有任務上,對於人類而言,選擇題比問答題簡單太多了(就像我們當學生時寫考卷一樣)。我們可以輕易判斷五則笑話中哪一則最好笑,卻很難幫單一則笑話打出分數。


壞處:RL 這個算法很容易鑽漏洞,尤其當它的裁判是另一個神經網路時(reward model)。目前的做法是 early stopping 。


本段落作者給出五條使用當前 AI tools 的建議與提醒:


  1. 要知道你的工具會出錯,它不是完美的。


  1. 記得每次都要檢查它產出的結果。


  1. 把它當成一種工具。


  1. 用它來激發靈感。


  1. 用它來完成初稿。



在不久的將來


我們高機率會看到:


  1. 多模態 Multimodal (語音、圖片、文字、自然語言對話)


  1. Task -> Agent


  1. Pervasive, Invisible 。接下來的 LLMs 會在背景默默的調用各類工具(e.g. 計算機、python、各類繪圖工具、另外的模型......等等)


  1. Test-time training



如何學習 LLMs 最新的知識


  1. Reference https://lmarena.ai/


  1. Subscribe to https://buttondown.com/ainews


  1. X / Twitter



如何找到最新推出的 LLMs


  1. Proprietary models:直接去各公司的官網找(e.g. OpenAI, Anthropic, DeepSeek)


  1. Open weights models (DeepSeek, Llama): an inference provider, e.g. TogetherAI


  1. 在自己的電腦運行。 e.g. LMStudio




Reference



留言0
查看全部
avatar-img
發表第一個留言支持創作者!
近期台灣上市了兩本關於 NVIDIA 的書籍《NVIDIA輝達之道》與《黃仁勳傳》,本文嘗試從不同觀點分析並比較兩書。
「欸,你相信上帝嗎?我知道這問題牽涉到個人隱私。我跟你說,我相信。我覺得祂好厲害,居然創造出相對論這種東西。你不覺得嗎?移動速度愈快,經歷的時間就愈短。你知道嗎,感覺就像祂邀請我們去探索宇宙一樣。」
是一本關於理財的書,但它更多的是在談論人生。 人活著是為了什麼?多數人都有自己的答案,也有可能根本沒人知道答案。晃晃悠悠數十載,我們終究只是頂著一副日漸老去的皮囊來世間走一走。對此,作者給出了他的答案:「你的人生,就是體驗的加總。」
5/5《別把你的錢留到死》
上一篇文章提到,資產配置對整體報酬率的影響超過 90%。在本篇文章中會詳細說明一種最基本、簡約的資產配置比例,以及為何要這麼配置的原因。
在這篇文章中,分享了我在投資股市時的一些教訓,以及我如何選擇適合自己的資產配置方法。分享了複利的力量、讓錢幫忙賺錢的概念,以及如何分散風險。同時指出人性偏誤與概念在投資中的影響,並提到了適合與不適合這個投資方法的人。
近期台灣上市了兩本關於 NVIDIA 的書籍《NVIDIA輝達之道》與《黃仁勳傳》,本文嘗試從不同觀點分析並比較兩書。
「欸,你相信上帝嗎?我知道這問題牽涉到個人隱私。我跟你說,我相信。我覺得祂好厲害,居然創造出相對論這種東西。你不覺得嗎?移動速度愈快,經歷的時間就愈短。你知道嗎,感覺就像祂邀請我們去探索宇宙一樣。」
是一本關於理財的書,但它更多的是在談論人生。 人活著是為了什麼?多數人都有自己的答案,也有可能根本沒人知道答案。晃晃悠悠數十載,我們終究只是頂著一副日漸老去的皮囊來世間走一走。對此,作者給出了他的答案:「你的人生,就是體驗的加總。」
5/5《別把你的錢留到死》
上一篇文章提到,資產配置對整體報酬率的影響超過 90%。在本篇文章中會詳細說明一種最基本、簡約的資產配置比例,以及為何要這麼配置的原因。
在這篇文章中,分享了我在投資股市時的一些教訓,以及我如何選擇適合自己的資產配置方法。分享了複利的力量、讓錢幫忙賺錢的概念,以及如何分散風險。同時指出人性偏誤與概念在投資中的影響,並提到了適合與不適合這個投資方法的人。
本篇參與的主題活動
當流量至上成為標準,性騷擾被輕描淡寫、受害者被噤聲,我們是否還能給孩子一個安全的未來?作為父親,我無法接受這種價值觀繼續影響下一代。我們該做的,不是遺忘,而是改變環境——拒絕縱容、用行動發聲,讓孩子知道「尊重是底線,說不是權利」。這不只是關於孫生,而是關於我們願意為未來的孩子守住什麼樣的世界。
學習《小狗錢錢》的理財方法,並透過實際操作,達成財務目標與自我提升。從記帳、設定目標、寫夢想清單、成功日記,到發展副業,分享如何將書中方法應用於生活中,並體會到理財不僅僅是管理金錢,更是規劃生活,實現夢想的重要過程。
比較2017年與2024年日本東北旅遊照片,對比藏王樹冰、銀山溫泉、山寺等景點在不同時間的景觀差異,即使地點相同,不同時間的體驗與感受截然不同,珍惜每個當下的珍貴回憶。2024年因暖冬導致雪景不如預期,反觀2017年的雪景壯觀美麗。新聞報導2025年日本東北暴雪,衷心祈願一切平安。
經過年末年初的大掃除,大家是否也好好整頓了自己的居家環境呢?身為家有幼童的媽媽,我也是歷經多次的練習,才調整到適合自己的清潔節奏,在此與大家分享我的清潔小撇步,每個習慣幾乎不超過5分鐘,就能換得一室乾淨,一起來看吧!
記錄一場前往屏東縣三地門鄉德文山(觀望山)的登山之旅,分享路線規劃、登山心得、沿途風景與美食體驗,並提醒登山客注意入山證申請及避免錯過三角點。
薪水的高低,從來不是努力的問題,而是思維的選擇。年薪百萬的人,不是單靠埋頭苦幹,而是透過「創造價值」決定自己的價格。他們懂得提升不可取代性、創造多重收入、主動尋找機會、投資自己,讓財富加速成長。與其等加薪,不如掌握「決定薪資的能力」。這篇文章,讓你看清真正的收入差距,從現在開始,為自己創造更高價值!
當流量至上成為標準,性騷擾被輕描淡寫、受害者被噤聲,我們是否還能給孩子一個安全的未來?作為父親,我無法接受這種價值觀繼續影響下一代。我們該做的,不是遺忘,而是改變環境——拒絕縱容、用行動發聲,讓孩子知道「尊重是底線,說不是權利」。這不只是關於孫生,而是關於我們願意為未來的孩子守住什麼樣的世界。
學習《小狗錢錢》的理財方法,並透過實際操作,達成財務目標與自我提升。從記帳、設定目標、寫夢想清單、成功日記,到發展副業,分享如何將書中方法應用於生活中,並體會到理財不僅僅是管理金錢,更是規劃生活,實現夢想的重要過程。
比較2017年與2024年日本東北旅遊照片,對比藏王樹冰、銀山溫泉、山寺等景點在不同時間的景觀差異,即使地點相同,不同時間的體驗與感受截然不同,珍惜每個當下的珍貴回憶。2024年因暖冬導致雪景不如預期,反觀2017年的雪景壯觀美麗。新聞報導2025年日本東北暴雪,衷心祈願一切平安。
經過年末年初的大掃除,大家是否也好好整頓了自己的居家環境呢?身為家有幼童的媽媽,我也是歷經多次的練習,才調整到適合自己的清潔節奏,在此與大家分享我的清潔小撇步,每個習慣幾乎不超過5分鐘,就能換得一室乾淨,一起來看吧!
記錄一場前往屏東縣三地門鄉德文山(觀望山)的登山之旅,分享路線規劃、登山心得、沿途風景與美食體驗,並提醒登山客注意入山證申請及避免錯過三角點。
薪水的高低,從來不是努力的問題,而是思維的選擇。年薪百萬的人,不是單靠埋頭苦幹,而是透過「創造價值」決定自己的價格。他們懂得提升不可取代性、創造多重收入、主動尋找機會、投資自己,讓財富加速成長。與其等加薪,不如掌握「決定薪資的能力」。這篇文章,讓你看清真正的收入差距,從現在開始,為自己創造更高價值!
你可能也想看
Google News 追蹤
提問的內容越是清晰,強者、聰明人越能在短時間內做判斷、給出精準的建議,他們會對你產生「好印象」,認定你是「積極」的人,有機會、好人脈會不自覺地想引薦給你
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
本系列將討論 LLM 時代中,分散 ML workload 的各種方法。作為系列的第一篇,我們將提及 High-level 的概論,譬如分散式訓練的各種切法、Model Parallelism 的相依問題,以及改善 Network Topology 等課題。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference
Thumbnail
在AI時代中,GPT技術正在改變我們的生活。然而,SLM(小型語言模型)也開始受到關注,具有更高的效率、更低的資源消耗和更快的響應速度。這篇文章將討論LLM和SLM的比較、SLM的應用場景以及未來的發展趨勢。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。
Thumbnail
大型語言模型(LLM)是基於深度學習的自然語言處理模型,而多模態模型(LMM)能處理多種資料型態。這些模型將對未來帶來重大改變。LLM 專注於理解和生成自然語言,LMM 能夠處理跨模態的內容,並整合多種資料的能力,有望成為未來趨勢。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」。 Prompt Pattern 是給予LLM的指示,並確保生成的輸出擁有特定的品質(和數量)。
Thumbnail
大語言模型(LLMs)對於任何對人工智能和自然語言處理感興趣的人來說都是一個令人興奮的領域。 這類模型,如GPT-4, 透過其龐大的數據集和複雜的參數設置, 提供了前所未有的語言理解和生成能力。 那麼,究竟是什麼讓這些模型「大」得如此不同呢?
Thumbnail
對於熱衷於語言科技的你, 大語言模型(LLMs)在自然語言處理(NLP)領域的發展無疑是一個革命性的進展。 從傳統的規則系統到基於深度學習的方法, LLMs展現了在理解、生成和翻譯人類語言方面的巨大突破。 這不僅是技術上的飛躍, 更是開啟了新的應用和可能性。 下面將介紹這一變革帶來的三大
提問的內容越是清晰,強者、聰明人越能在短時間內做判斷、給出精準的建議,他們會對你產生「好印象」,認定你是「積極」的人,有機會、好人脈會不自覺地想引薦給你
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
本系列將討論 LLM 時代中,分散 ML workload 的各種方法。作為系列的第一篇,我們將提及 High-level 的概論,譬如分散式訓練的各種切法、Model Parallelism 的相依問題,以及改善 Network Topology 等課題。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference
Thumbnail
在AI時代中,GPT技術正在改變我們的生活。然而,SLM(小型語言模型)也開始受到關注,具有更高的效率、更低的資源消耗和更快的響應速度。這篇文章將討論LLM和SLM的比較、SLM的應用場景以及未來的發展趨勢。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。
Thumbnail
大型語言模型(LLM)是基於深度學習的自然語言處理模型,而多模態模型(LMM)能處理多種資料型態。這些模型將對未來帶來重大改變。LLM 專注於理解和生成自然語言,LMM 能夠處理跨模態的內容,並整合多種資料的能力,有望成為未來趨勢。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」。 Prompt Pattern 是給予LLM的指示,並確保生成的輸出擁有特定的品質(和數量)。
Thumbnail
大語言模型(LLMs)對於任何對人工智能和自然語言處理感興趣的人來說都是一個令人興奮的領域。 這類模型,如GPT-4, 透過其龐大的數據集和複雜的參數設置, 提供了前所未有的語言理解和生成能力。 那麼,究竟是什麼讓這些模型「大」得如此不同呢?
Thumbnail
對於熱衷於語言科技的你, 大語言模型(LLMs)在自然語言處理(NLP)領域的發展無疑是一個革命性的進展。 從傳統的規則系統到基於深度學習的方法, LLMs展現了在理解、生成和翻譯人類語言方面的巨大突破。 這不僅是技術上的飛躍, 更是開啟了新的應用和可能性。 下面將介紹這一變革帶來的三大