Andrej Karpathy 曾擔任特斯拉人工智慧和自動駕駛視覺總監,也是OpenAI的共同創辦人之一,專攻於深度學習和電腦視覺領域。近期在YouTube推出一部極為精彩、專為一般大眾設計的大型語言模型深度介紹影片,重點是即使你沒有技術背景,該部影片的說明也能輕鬆理解大型語言模型的完整訓練流程,以下是針對這部影片的重點介紹及有趣的地方,文章尾部有放影片連結,推薦各位看完文章後,有空的話務必觀看完整影片內容!

影片重點在於深入介紹 LLM 的三大主要訓練階段:
- 預訓練(Pretraining)
- 如何蒐集與處理訓練數據
- 文字如何被「Tokenization」成 AI 可讀的格式
- Transformer 神經網路的運作原理
- AI 如何進行推理(Inference)
- 以 GPT-2 作為訓練案例,並探討 Llama 3.1 基礎模型的推理過程
- 監督微調(Supervised Fine-tuning)
- AI 透過對話數據學習如何生成更自然、合理的回答
- AI的「心理運作方式」
- 強化學習(Reinforcement Learning)
- AI 如何透過反覆練習提升能力
- DeepSeek-R1 和 AlphaGo 的學習方式
- 人類回饋強化學習(RLHF) 的應用
個人印象深刻的是 Andrej Karpathy 將上述三個訓練階段結合,提出一個相當有趣的比喻,他將大型語言模型的訓練過程,比喻為學生在學校學習的過程。他認為,讓大型語言模型變得更聰明的方式,就像教育學生一樣,必須提供適當的教材、範例、練習題,並透過不同階段的學習來提升能力。
1. 預訓練:等同於學習基礎知識
在學校學習的第一步,是透過課本或老師的講解來獲得基礎知識。例如,學生學數學時,會先學習加減乘除的基本概念,學習物理時,會先理解牛頓定律和基本定義。這些內容通常是理論性的知識,幫助學生建立一個完整的知識體系。
大型語言模型的預訓練過程與此類似。模型在訓練初期,會從大量的文本數據中學習各種知識,這些數據來自網際網路上的文章、書籍、論文、對話等。這些資料就像是一大批教科書,提供了大量的背景資訊,使得大型語言模型可以學會語言結構、語法規則、常見的概念,以及不同領域的基本知識。
然而,這種方式的局限性在於,它雖然能讓大型語言模型獲得豐富的知識,但不代表它真的理解這些知識。因此,光靠預訓練是不夠的,還需要監督微調來進一步的「練習與指導」。
2. 監督微調:模仿專家解題的過程
如果說預訓練是讓大型語言模型吸收大量的基礎知識,那麼監督微調(Supervised Fine-tuning)就是讓它學習「如何正確地回答問題」。這個過程類似於學生在課本上看到範例題,並觀察老師或專家的解題方式。
舉個例子,當學生學習數學時,他們通常會先看老師如何解一道微積分題目,老師會一步一步地講解推導過程。學生透過觀察老師的解法,可以學習到標準的解題步驟,知道該如何從問題出發,逐步找到正確答案。在大型語言模型的訓練中,這個過程就是監督微調。研究人員會提供大量「標準回答」來訓練大型語言模型,讓它學習如何回答問題。
透過這種方式,大型語言模型變得更有條理,也能模仿專家的回答風格。然而,這種方式仍然存在一定的限制,因為它只是在模仿,而不是真的「學習解決問題的能力」。這就像學生雖然看過範例題,但不代表他能解決所有類似的問題。因此,我們還需要強化學習來進一步提升大型語言模型的能力。
3. 強化學習:實戰練習與試錯學習
學生在學習新知識時,最重要的環節是「實戰練習」,也就是親自動手做題目。這個過程幫助學生鞏固所學,並透過試錯學習來進一步理解概念。例如,在數學課本的每一章結束時,通常會有大量的練習題,這些題目沒有詳細的解法,學生需要自己思考,試著找出正確答案。
大型語言模型的強化學習與此相似。在這個階段,模型不再只是模仿標準答案,而是要自己試著回答問題,然後透過回饋機制來調整自己的答案。這通常透過獎勵機制來實現,例如當大型語言模型給出一個好答案時,研究人員會給它一個正向回饋,讓它知道這樣的回答是好的;如果答案不夠好,則會給予負向回饋,讓它學習如何改進。這種方式讓大型語言模型的學習更加靈活,能夠透過試錯學習來提升自己的能力
影片連結:https://www.youtube.com/watch?v=7xTGNNLPyMI
我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心給我支持鼓勵~
也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!
>>>請我喝一杯咖啡