AI 是怎麼學會「說話」的?Andrej Karpathy 深入解析大型語言模型背後的訓練祕密!

更新 發佈閱讀 4 分鐘

Andrej Karpathy 曾擔任特斯拉人工智慧和自動駕駛視覺總監,也是OpenAI的共同創辦人之一,專攻於深度學習和電腦視覺領域。近期在YouTube推出一部極為精彩、專為一般大眾設計的大型語言模型深度介紹影片,重點是即使你沒有技術背景,該部影片的說明也能輕鬆理解大型語言模型的完整訓練流程,以下是針對這部影片的重點介紹及有趣的地方,文章尾部有放影片連結,推薦各位看完文章後,有空的話務必觀看完整影片內容!

raw-image




影片重點在於深入介紹 LLM 的三大主要訓練階段:

  1. 預訓練(Pretraining)
    • 如何蒐集與處理訓練數據
    • 文字如何被「Tokenization」成 AI 可讀的格式
    • Transformer 神經網路的運作原理
    • AI 如何進行推理(Inference)
    • 以 GPT-2 作為訓練案例,並探討 Llama 3.1 基礎模型的推理過程
  2. 監督微調(Supervised Fine-tuning)
    • AI 透過對話數據學習如何生成更自然、合理的回答
    • AI的「心理運作方式」
  3. 強化學習(Reinforcement Learning)
    • AI 如何透過反覆練習提升能力
    • DeepSeek-R1 和 AlphaGo 的學習方式
    • 人類回饋強化學習(RLHF) 的應用




個人印象深刻的是 Andrej Karpathy 將上述三個訓練階段結合,提出一個相當有趣的比喻,他將大型語言模型的訓練過程,比喻為學生在學校學習的過程。他認為,讓大型語言模型變得更聰明的方式,就像教育學生一樣,必須提供適當的教材、範例、練習題,並透過不同階段的學習來提升能力。

1. 預訓練:等同於學習基礎知識

在學校學習的第一步,是透過課本或老師的講解來獲得基礎知識。例如,學生學數學時,會先學習加減乘除的基本概念,學習物理時,會先理解牛頓定律和基本定義。這些內容通常是理論性的知識,幫助學生建立一個完整的知識體系。

大型語言模型的預訓練過程與此類似。模型在訓練初期,會從大量的文本數據中學習各種知識,這些數據來自網際網路上的文章、書籍、論文、對話等。這些資料就像是一大批教科書,提供了大量的背景資訊,使得大型語言模型可以學會語言結構、語法規則、常見的概念,以及不同領域的基本知識。

然而,這種方式的局限性在於,它雖然能讓大型語言模型獲得豐富的知識,但不代表它真的理解這些知識。因此,光靠預訓練是不夠的,還需要監督微調來進一步的「練習與指導」。


2. 監督微調:模仿專家解題的過程

如果說預訓練是讓大型語言模型吸收大量的基礎知識,那麼監督微調(Supervised Fine-tuning)就是讓它學習「如何正確地回答問題」。這個過程類似於學生在課本上看到範例題,並觀察老師或專家的解題方式。

舉個例子,當學生學習數學時,他們通常會先看老師如何解一道微積分題目,老師會一步一步地講解推導過程。學生透過觀察老師的解法,可以學習到標準的解題步驟,知道該如何從問題出發,逐步找到正確答案。在大型語言模型的訓練中,這個過程就是監督微調。研究人員會提供大量「標準回答」來訓練大型語言模型,讓它學習如何回答問題。

透過這種方式,大型語言模型變得更有條理,也能模仿專家的回答風格。然而,這種方式仍然存在一定的限制,因為它只是在模仿,而不是真的「學習解決問題的能力」。這就像學生雖然看過範例題,但不代表他能解決所有類似的問題。因此,我們還需要強化學習來進一步提升大型語言模型的能力。


3. 強化學習:實戰練習與試錯學習

學生在學習新知識時,最重要的環節是「實戰練習」,也就是親自動手做題目。這個過程幫助學生鞏固所學,並透過試錯學習來進一步理解概念。例如,在數學課本的每一章結束時,通常會有大量的練習題,這些題目沒有詳細的解法,學生需要自己思考,試著找出正確答案。

大型語言模型的強化學習與此相似。在這個階段,模型不再只是模仿標準答案,而是要自己試著回答問題,然後透過回饋機制來調整自己的答案。這通常透過獎勵機制來實現,例如當大型語言模型給出一個好答案時,研究人員會給它一個正向回饋,讓它知道這樣的回答是好的;如果答案不夠好,則會給予負向回饋,讓它學習如何改進。這種方式讓大型語言模型的學習更加靈活,能夠透過試錯學習來提升自己的能力



影片連結:https://www.youtube.com/watch?v=7xTGNNLPyMI


我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心給我支持鼓勵~

也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!

>>>請我喝一杯咖啡



留言
avatar-img
TN科技筆記(TechNotes)的沙龍
71會員
238內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2025/04/27
隨著大型語言模型(LLM)在推理(Reasoning)任務的表現受到廣泛關注。為了提升模型在推理階段的表現,研究人員提出了「測試時間計算(Test-time Computing)」與「測試時間擴展(Test-time Scaling)」兩個重要概念。本文將說明這兩個概念的定義與區別。
Thumbnail
2025/04/27
隨著大型語言模型(LLM)在推理(Reasoning)任務的表現受到廣泛關注。為了提升模型在推理階段的表現,研究人員提出了「測試時間計算(Test-time Computing)」與「測試時間擴展(Test-time Scaling)」兩個重要概念。本文將說明這兩個概念的定義與區別。
Thumbnail
2025/04/21
隨著大型語言模型的快速發展,Prompt Engineering 已成為提升模型表現的核心技術。OpenAI 日前推出了 GPT-4.1 Prompting Guide,為開發者提供全面的提示詞改善策略,幫助充分利用 GPT-4.1 在編碼、指令遵循和長上下文處理上的進步。
Thumbnail
2025/04/21
隨著大型語言模型的快速發展,Prompt Engineering 已成為提升模型表現的核心技術。OpenAI 日前推出了 GPT-4.1 Prompting Guide,為開發者提供全面的提示詞改善策略,幫助充分利用 GPT-4.1 在編碼、指令遵循和長上下文處理上的進步。
Thumbnail
2025/04/19
Quantization將高精度數值(如FP32)轉換為低精度格式(如FP16、BF16、int8、int4),實現模型壓縮和推論加速。不同數據格式在動態範圍、精度和硬體支援上各有優劣,需根據應用場景選擇。GGUF作為量化模型的標準化檔案格式,確保模型在llama.cpp等推論框架中的高效運行。
Thumbnail
2025/04/19
Quantization將高精度數值(如FP32)轉換為低精度格式(如FP16、BF16、int8、int4),實現模型壓縮和推論加速。不同數據格式在動態範圍、精度和硬體支援上各有優劣,需根據應用場景選擇。GGUF作為量化模型的標準化檔案格式,確保模型在llama.cpp等推論框架中的高效運行。
Thumbnail
看更多
你可能也想看
Thumbnail
創作不只是個人戰,在 vocus ,也可以是一場集體冒險、組隊升級。最具代表性的創作者社群「vocus 野格團」,現在有了更強大的新夥伴加入!除了大家熟悉的「官方主題沙龍」,這次我們徵召了 8 位領域各異的「個人主題專家」,將再度嘗試創作的各種可能,和格友們激發出更多未知的火花。
Thumbnail
創作不只是個人戰,在 vocus ,也可以是一場集體冒險、組隊升級。最具代表性的創作者社群「vocus 野格團」,現在有了更強大的新夥伴加入!除了大家熟悉的「官方主題沙龍」,這次我們徵召了 8 位領域各異的「個人主題專家」,將再度嘗試創作的各種可能,和格友們激發出更多未知的火花。
Thumbnail
看完上篇 4 位新成員的靈魂拷問,是不是意猶未盡?別急,野格團新血的驚喜正接著登場!今天下篇接力的另外 4 位「個人主題專家」,戰力同樣驚人──領域從旅行美食、運動、商業投資到自我成長;這些人如何維持長跑般的創作動力?在爆紅的文章背後,又藏著哪些不為人知的洞察?5 大靈魂拷問繼續出擊
Thumbnail
看完上篇 4 位新成員的靈魂拷問,是不是意猶未盡?別急,野格團新血的驚喜正接著登場!今天下篇接力的另外 4 位「個人主題專家」,戰力同樣驚人──領域從旅行美食、運動、商業投資到自我成長;這些人如何維持長跑般的創作動力?在爆紅的文章背後,又藏著哪些不為人知的洞察?5 大靈魂拷問繼續出擊
Thumbnail
Andrej Karpathy是AI領域的知名專家,曾在特斯拉和OpenAI工作,專注於深度學習和電腦視覺。影片中示範了大型語言模型(LLM)的實用應用,從基本互動到進階功能,如搜尋工具、檔案處理、自訂GPT、模型選擇、工具使用(如搜尋和深度研究)、程式碼撰寫、音視頻處理、圖像生成等。
Thumbnail
Andrej Karpathy是AI領域的知名專家,曾在特斯拉和OpenAI工作,專注於深度學習和電腦視覺。影片中示範了大型語言模型(LLM)的實用應用,從基本互動到進階功能,如搜尋工具、檔案處理、自訂GPT、模型選擇、工具使用(如搜尋和深度研究)、程式碼撰寫、音視頻處理、圖像生成等。
Thumbnail
Andrej Karpathy是AI領域的知名專家,曾在特斯拉和OpenAI工作,專注於深度學習和電腦視覺。影片中示範了大型語言模型(LLM)的實用應用,從基本互動到進階功能,如搜尋工具、檔案處理、自訂GPT、模型選擇、工具使用(如搜尋和深度研究)、程式碼撰寫、音視頻處理、圖像生成等。
Thumbnail
Andrej Karpathy是AI領域的知名專家,曾在特斯拉和OpenAI工作,專注於深度學習和電腦視覺。影片中示範了大型語言模型(LLM)的實用應用,從基本互動到進階功能,如搜尋工具、檔案處理、自訂GPT、模型選擇、工具使用(如搜尋和深度研究)、程式碼撰寫、音視頻處理、圖像生成等。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。 現在我們來載入預訓練權重,預訓練的權重包含 Transformer 的智慧
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。 現在我們來載入預訓練權重,預訓練的權重包含 Transformer 的智慧
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Vaswani 等人 2017 年解決了設計 Transformer 時最困難的 NLP 問題之一,對於我們人機智慧設計師來說,機器翻譯的人類基準似乎遙不可及,然而,這
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Vaswani 等人 2017 年解決了設計 Transformer 時最困難的 NLP 問題之一,對於我們人機智慧設計師來說,機器翻譯的人類基準似乎遙不可及,然而,這
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 已經在AI說書 - 從0開始 - 12以及AI說書 - 從0開始 - 13中見識到TPU的威力了,現在我們把參數放大到真實大型語言模型的規模,看看運算時間的等級。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 已經在AI說書 - 從0開始 - 12以及AI說書 - 從0開始 - 13中見識到TPU的威力了,現在我們把參數放大到真實大型語言模型的規模,看看運算時間的等級。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News