AI 是怎麼學會「說話」的?Andrej Karpathy 深入解析大型語言模型背後的訓練祕密!

AI 是怎麼學會「說話」的?Andrej Karpathy 深入解析大型語言模型背後的訓練祕密!

更新於 發佈於 閱讀時間約 5 分鐘

Andrej Karpathy 曾擔任特斯拉人工智慧和自動駕駛視覺總監,也是OpenAI的共同創辦人之一,專攻於深度學習和電腦視覺領域。近期在YouTube推出一部極為精彩、專為一般大眾設計的大型語言模型深度介紹影片,重點是即使你沒有技術背景,該部影片的說明也能輕鬆理解大型語言模型的完整訓練流程,以下是針對這部影片的重點介紹及有趣的地方,文章尾部有放影片連結,推薦各位看完文章後,有空的話務必觀看完整影片內容!

raw-image




影片重點在於深入介紹 LLM 的三大主要訓練階段:

  1. 預訓練(Pretraining)
    • 如何蒐集與處理訓練數據
    • 文字如何被「Tokenization」成 AI 可讀的格式
    • Transformer 神經網路的運作原理
    • AI 如何進行推理(Inference)
    • 以 GPT-2 作為訓練案例,並探討 Llama 3.1 基礎模型的推理過程
  2. 監督微調(Supervised Fine-tuning)
    • AI 透過對話數據學習如何生成更自然、合理的回答
    • AI的「心理運作方式」
  3. 強化學習(Reinforcement Learning)
    • AI 如何透過反覆練習提升能力
    • DeepSeek-R1 和 AlphaGo 的學習方式
    • 人類回饋強化學習(RLHF) 的應用




個人印象深刻的是 Andrej Karpathy 將上述三個訓練階段結合,提出一個相當有趣的比喻,他將大型語言模型的訓練過程,比喻為學生在學校學習的過程。他認為,讓大型語言模型變得更聰明的方式,就像教育學生一樣,必須提供適當的教材、範例、練習題,並透過不同階段的學習來提升能力。

1. 預訓練:等同於學習基礎知識

在學校學習的第一步,是透過課本或老師的講解來獲得基礎知識。例如,學生學數學時,會先學習加減乘除的基本概念,學習物理時,會先理解牛頓定律和基本定義。這些內容通常是理論性的知識,幫助學生建立一個完整的知識體系。

大型語言模型的預訓練過程與此類似。模型在訓練初期,會從大量的文本數據中學習各種知識,這些數據來自網際網路上的文章、書籍、論文、對話等。這些資料就像是一大批教科書,提供了大量的背景資訊,使得大型語言模型可以學會語言結構、語法規則、常見的概念,以及不同領域的基本知識。

然而,這種方式的局限性在於,它雖然能讓大型語言模型獲得豐富的知識,但不代表它真的理解這些知識。因此,光靠預訓練是不夠的,還需要監督微調來進一步的「練習與指導」。


2. 監督微調:模仿專家解題的過程

如果說預訓練是讓大型語言模型吸收大量的基礎知識,那麼監督微調(Supervised Fine-tuning)就是讓它學習「如何正確地回答問題」。這個過程類似於學生在課本上看到範例題,並觀察老師或專家的解題方式。

舉個例子,當學生學習數學時,他們通常會先看老師如何解一道微積分題目,老師會一步一步地講解推導過程。學生透過觀察老師的解法,可以學習到標準的解題步驟,知道該如何從問題出發,逐步找到正確答案。在大型語言模型的訓練中,這個過程就是監督微調。研究人員會提供大量「標準回答」來訓練大型語言模型,讓它學習如何回答問題。

透過這種方式,大型語言模型變得更有條理,也能模仿專家的回答風格。然而,這種方式仍然存在一定的限制,因為它只是在模仿,而不是真的「學習解決問題的能力」。這就像學生雖然看過範例題,但不代表他能解決所有類似的問題。因此,我們還需要強化學習來進一步提升大型語言模型的能力。


3. 強化學習:實戰練習與試錯學習

學生在學習新知識時,最重要的環節是「實戰練習」,也就是親自動手做題目。這個過程幫助學生鞏固所學,並透過試錯學習來進一步理解概念。例如,在數學課本的每一章結束時,通常會有大量的練習題,這些題目沒有詳細的解法,學生需要自己思考,試著找出正確答案。

大型語言模型的強化學習與此相似。在這個階段,模型不再只是模仿標準答案,而是要自己試著回答問題,然後透過回饋機制來調整自己的答案。這通常透過獎勵機制來實現,例如當大型語言模型給出一個好答案時,研究人員會給它一個正向回饋,讓它知道這樣的回答是好的;如果答案不夠好,則會給予負向回饋,讓它學習如何改進。這種方式讓大型語言模型的學習更加靈活,能夠透過試錯學習來提升自己的能力



影片連結:https://www.youtube.com/watch?v=7xTGNNLPyMI


我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心給我支持鼓勵~

也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!

>>>請我喝一杯咖啡



avatar-img
TN科技筆記(TechNotes)的沙龍
21會員
81內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
留言
avatar-img
留言分享你的想法!
隨著大型語言模型(LLM)在推理(Reasoning)任務的表現受到廣泛關注。為了提升模型在推理階段的表現,研究人員提出了「測試時間計算(Test-time Computing)」與「測試時間擴展(Test-time Scaling)」兩個重要概念。本文將說明這兩個概念的定義與區別。
隨著大型語言模型的快速發展,Prompt Engineering 已成為提升模型表現的核心技術。OpenAI 日前推出了 GPT-4.1 Prompting Guide,為開發者提供全面的提示詞改善策略,幫助充分利用 GPT-4.1 在編碼、指令遵循和長上下文處理上的進步。
Quantization將高精度數值(如FP32)轉換為低精度格式(如FP16、BF16、int8、int4),實現模型壓縮和推論加速。不同數據格式在動態範圍、精度和硬體支援上各有優劣,需根據應用場景選擇。GGUF作為量化模型的標準化檔案格式,確保模型在llama.cpp等推論框架中的高效運行。
隨著大型語言模型(LLM)在推理(Reasoning)任務的表現受到廣泛關注。為了提升模型在推理階段的表現,研究人員提出了「測試時間計算(Test-time Computing)」與「測試時間擴展(Test-time Scaling)」兩個重要概念。本文將說明這兩個概念的定義與區別。
隨著大型語言模型的快速發展,Prompt Engineering 已成為提升模型表現的核心技術。OpenAI 日前推出了 GPT-4.1 Prompting Guide,為開發者提供全面的提示詞改善策略,幫助充分利用 GPT-4.1 在編碼、指令遵循和長上下文處理上的進步。
Quantization將高精度數值(如FP32)轉換為低精度格式(如FP16、BF16、int8、int4),實現模型壓縮和推論加速。不同數據格式在動態範圍、精度和硬體支援上各有優劣,需根據應用場景選擇。GGUF作為量化模型的標準化檔案格式,確保模型在llama.cpp等推論框架中的高效運行。
本篇參與的主題活動
經歷澳洲雪梨打工度假、義大利留學,和這次的歐洲冬季自助20天,我已經養成出國會固定搜尋這些項目的習慣~ 望對大家出國旅遊事前準備與行程規劃有幫助!有興趣的朋友就點進文章看看吧~
在商場江湖上,會計這門內功常被誤認為只有財務長、會計師那種老骨頭才需要修煉。但真相是不懂會計,就像拿著破銅爛鐵去闖天下,怎麼跟別人比劍?
在2022年的某個夜晚,我送走了陪伴我18年的貓咪 那一夜,他靜靜地離開了人世,當時我潰堤落淚,哭到無法站立 這份情感至今仍深藏心底,時而浮現 愛與陪伴的重量,讓人懂得珍惜當下,也讓人學會,帶著思念繼續前行
經歷澳洲雪梨打工度假、義大利留學,和這次的歐洲冬季自助20天,我已經養成出國會固定搜尋這些項目的習慣~ 望對大家出國旅遊事前準備與行程規劃有幫助!有興趣的朋友就點進文章看看吧~
在商場江湖上,會計這門內功常被誤認為只有財務長、會計師那種老骨頭才需要修煉。但真相是不懂會計,就像拿著破銅爛鐵去闖天下,怎麼跟別人比劍?
在2022年的某個夜晚,我送走了陪伴我18年的貓咪 那一夜,他靜靜地離開了人世,當時我潰堤落淚,哭到無法站立 這份情感至今仍深藏心底,時而浮現 愛與陪伴的重量,讓人懂得珍惜當下,也讓人學會,帶著思念繼續前行