AI 是怎麼學會「說話」的?Andrej Karpathy 深入解析大型語言模型背後的訓練祕密!

更新於 發佈於 閱讀時間約 5 分鐘

Andrej Karpathy 曾擔任特斯拉人工智慧和自動駕駛視覺總監,也是OpenAI的共同創辦人之一,專攻於深度學習和電腦視覺領域。近期在YouTube推出一部極為精彩、專為一般大眾設計的大型語言模型深度介紹影片,重點是即使你沒有技術背景,該部影片的說明也能輕鬆理解大型語言模型的完整訓練流程,以下是針對這部影片的重點介紹及有趣的地方,文章尾部有放影片連結,推薦各位看完文章後,有空的話務必觀看完整影片內容!

raw-image




影片重點在於深入介紹 LLM 的三大主要訓練階段:

  1. 預訓練(Pretraining)
    • 如何蒐集與處理訓練數據
    • 文字如何被「Tokenization」成 AI 可讀的格式
    • Transformer 神經網路的運作原理
    • AI 如何進行推理(Inference)
    • 以 GPT-2 作為訓練案例,並探討 Llama 3.1 基礎模型的推理過程
  2. 監督微調(Supervised Fine-tuning)
    • AI 透過對話數據學習如何生成更自然、合理的回答
    • AI的「心理運作方式」
  3. 強化學習(Reinforcement Learning)
    • AI 如何透過反覆練習提升能力
    • DeepSeek-R1 和 AlphaGo 的學習方式
    • 人類回饋強化學習(RLHF) 的應用




個人印象深刻的是 Andrej Karpathy 將上述三個訓練階段結合,提出一個相當有趣的比喻,他將大型語言模型的訓練過程,比喻為學生在學校學習的過程。他認為,讓大型語言模型變得更聰明的方式,就像教育學生一樣,必須提供適當的教材、範例、練習題,並透過不同階段的學習來提升能力。

1. 預訓練:等同於學習基礎知識

在學校學習的第一步,是透過課本或老師的講解來獲得基礎知識。例如,學生學數學時,會先學習加減乘除的基本概念,學習物理時,會先理解牛頓定律和基本定義。這些內容通常是理論性的知識,幫助學生建立一個完整的知識體系。

大型語言模型的預訓練過程與此類似。模型在訓練初期,會從大量的文本數據中學習各種知識,這些數據來自網際網路上的文章、書籍、論文、對話等。這些資料就像是一大批教科書,提供了大量的背景資訊,使得大型語言模型可以學會語言結構、語法規則、常見的概念,以及不同領域的基本知識。

然而,這種方式的局限性在於,它雖然能讓大型語言模型獲得豐富的知識,但不代表它真的理解這些知識。因此,光靠預訓練是不夠的,還需要監督微調來進一步的「練習與指導」。


2. 監督微調:模仿專家解題的過程

如果說預訓練是讓大型語言模型吸收大量的基礎知識,那麼監督微調(Supervised Fine-tuning)就是讓它學習「如何正確地回答問題」。這個過程類似於學生在課本上看到範例題,並觀察老師或專家的解題方式。

舉個例子,當學生學習數學時,他們通常會先看老師如何解一道微積分題目,老師會一步一步地講解推導過程。學生透過觀察老師的解法,可以學習到標準的解題步驟,知道該如何從問題出發,逐步找到正確答案。在大型語言模型的訓練中,這個過程就是監督微調。研究人員會提供大量「標準回答」來訓練大型語言模型,讓它學習如何回答問題。

透過這種方式,大型語言模型變得更有條理,也能模仿專家的回答風格。然而,這種方式仍然存在一定的限制,因為它只是在模仿,而不是真的「學習解決問題的能力」。這就像學生雖然看過範例題,但不代表他能解決所有類似的問題。因此,我們還需要強化學習來進一步提升大型語言模型的能力。


3. 強化學習:實戰練習與試錯學習

學生在學習新知識時,最重要的環節是「實戰練習」,也就是親自動手做題目。這個過程幫助學生鞏固所學,並透過試錯學習來進一步理解概念。例如,在數學課本的每一章結束時,通常會有大量的練習題,這些題目沒有詳細的解法,學生需要自己思考,試著找出正確答案。

大型語言模型的強化學習與此相似。在這個階段,模型不再只是模仿標準答案,而是要自己試著回答問題,然後透過回饋機制來調整自己的答案。這通常透過獎勵機制來實現,例如當大型語言模型給出一個好答案時,研究人員會給它一個正向回饋,讓它知道這樣的回答是好的;如果答案不夠好,則會給予負向回饋,讓它學習如何改進。這種方式讓大型語言模型的學習更加靈活,能夠透過試錯學習來提升自己的能力



影片連結:https://www.youtube.com/watch?v=7xTGNNLPyMI


我是TN科技筆記,如果喜歡這篇文章,歡迎留言或轉發給朋友給我支持鼓勵!!



大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Amazon 亞馬遜(AMZN)2024Q4營收突破1,878億美元,但股價為何下跌4%?本文分析亞馬遜在AI領域的投資計劃,以及AWS、廣告業務的成長。
Google 最新 Gemini 2.0 模型系列震撼登場!三大版本 Flash、Pro 和 Flash-Lite 全面提升性能,上下文理解能力大幅提升,更在成本和靈活性上為企業級應用開闢全新藍海,似乎正是為了扭轉 Google 股價在財報後下跌的氣氛!
Google 最新財報出爐,儘管每股盈餘超出預期,但營收未達預期且高額資本支出計劃導致盤後股價下跌。本文深入分析 Google 的商業模式、財務表現、產品亮點、AI 投資策略及未來展望,探討其在高度競爭的科技市場中的挑戰與機會。
在數據成為新石油的時代,Palantir憑藉創新AI平台,正以驚人的商業收入增長,徹底改變企業和政府的決策模式。
OpenAI在今天馬不停蹄地又推出了一款名為「Deep Research」的工具展示了AI技術的驚人潛力,能夠快速瀏覽、分析和整合網路資訊。跟DeepSeek-R1相比的結果如何呢?
還記得一顆衛星讓美國徹底驚醒的史普尼克時刻,以及隨之而來的太空競賽嗎?2025年,AI 界似乎正在上演類似的劇情:當 DeepSeek 展現實力,OpenAI 不只強勢反擊,更首次向免費用戶開放高階功能。這場驚人相似的歷史重演,似乎暗示背後的AI大戰已經悄悄開始了! 史普尼克1號(Spu
Amazon 亞馬遜(AMZN)2024Q4營收突破1,878億美元,但股價為何下跌4%?本文分析亞馬遜在AI領域的投資計劃,以及AWS、廣告業務的成長。
Google 最新 Gemini 2.0 模型系列震撼登場!三大版本 Flash、Pro 和 Flash-Lite 全面提升性能,上下文理解能力大幅提升,更在成本和靈活性上為企業級應用開闢全新藍海,似乎正是為了扭轉 Google 股價在財報後下跌的氣氛!
Google 最新財報出爐,儘管每股盈餘超出預期,但營收未達預期且高額資本支出計劃導致盤後股價下跌。本文深入分析 Google 的商業模式、財務表現、產品亮點、AI 投資策略及未來展望,探討其在高度競爭的科技市場中的挑戰與機會。
在數據成為新石油的時代,Palantir憑藉創新AI平台,正以驚人的商業收入增長,徹底改變企業和政府的決策模式。
OpenAI在今天馬不停蹄地又推出了一款名為「Deep Research」的工具展示了AI技術的驚人潛力,能夠快速瀏覽、分析和整合網路資訊。跟DeepSeek-R1相比的結果如何呢?
還記得一顆衛星讓美國徹底驚醒的史普尼克時刻,以及隨之而來的太空競賽嗎?2025年,AI 界似乎正在上演類似的劇情:當 DeepSeek 展現實力,OpenAI 不只強勢反擊,更首次向免費用戶開放高階功能。這場驚人相似的歷史重演,似乎暗示背後的AI大戰已經悄悄開始了! 史普尼克1號(Spu
本篇參與的主題活動
當流量至上成為標準,性騷擾被輕描淡寫、受害者被噤聲,我們是否還能給孩子一個安全的未來?作為父親,我無法接受這種價值觀繼續影響下一代。我們該做的,不是遺忘,而是改變環境——拒絕縱容、用行動發聲,讓孩子知道「尊重是底線,說不是權利」。這不只是關於孫生,而是關於我們願意為未來的孩子守住什麼樣的世界。
學習《小狗錢錢》的理財方法,並透過實際操作,達成財務目標與自我提升。從記帳、設定目標、寫夢想清單、成功日記,到發展副業,分享如何將書中方法應用於生活中,並體會到理財不僅僅是管理金錢,更是規劃生活,實現夢想的重要過程。
比較2017年與2024年日本東北旅遊照片,對比藏王樹冰、銀山溫泉、山寺等景點在不同時間的景觀差異,即使地點相同,不同時間的體驗與感受截然不同,珍惜每個當下的珍貴回憶。2024年因暖冬導致雪景不如預期,反觀2017年的雪景壯觀美麗。新聞報導2025年日本東北暴雪,衷心祈願一切平安。
經過年末年初的大掃除,大家是否也好好整頓了自己的居家環境呢?身為家有幼童的媽媽,我也是歷經多次的練習,才調整到適合自己的清潔節奏,在此與大家分享我的清潔小撇步,每個習慣幾乎不超過5分鐘,就能換得一室乾淨,一起來看吧!
記錄一場前往屏東縣三地門鄉德文山(觀望山)的登山之旅,分享路線規劃、登山心得、沿途風景與美食體驗,並提醒登山客注意入山證申請及避免錯過三角點。
薪水的高低,從來不是努力的問題,而是思維的選擇。年薪百萬的人,不是單靠埋頭苦幹,而是透過「創造價值」決定自己的價格。他們懂得提升不可取代性、創造多重收入、主動尋找機會、投資自己,讓財富加速成長。與其等加薪,不如掌握「決定薪資的能力」。這篇文章,讓你看清真正的收入差距,從現在開始,為自己創造更高價值!
當流量至上成為標準,性騷擾被輕描淡寫、受害者被噤聲,我們是否還能給孩子一個安全的未來?作為父親,我無法接受這種價值觀繼續影響下一代。我們該做的,不是遺忘,而是改變環境——拒絕縱容、用行動發聲,讓孩子知道「尊重是底線,說不是權利」。這不只是關於孫生,而是關於我們願意為未來的孩子守住什麼樣的世界。
學習《小狗錢錢》的理財方法,並透過實際操作,達成財務目標與自我提升。從記帳、設定目標、寫夢想清單、成功日記,到發展副業,分享如何將書中方法應用於生活中,並體會到理財不僅僅是管理金錢,更是規劃生活,實現夢想的重要過程。
比較2017年與2024年日本東北旅遊照片,對比藏王樹冰、銀山溫泉、山寺等景點在不同時間的景觀差異,即使地點相同,不同時間的體驗與感受截然不同,珍惜每個當下的珍貴回憶。2024年因暖冬導致雪景不如預期,反觀2017年的雪景壯觀美麗。新聞報導2025年日本東北暴雪,衷心祈願一切平安。
經過年末年初的大掃除,大家是否也好好整頓了自己的居家環境呢?身為家有幼童的媽媽,我也是歷經多次的練習,才調整到適合自己的清潔節奏,在此與大家分享我的清潔小撇步,每個習慣幾乎不超過5分鐘,就能換得一室乾淨,一起來看吧!
記錄一場前往屏東縣三地門鄉德文山(觀望山)的登山之旅,分享路線規劃、登山心得、沿途風景與美食體驗,並提醒登山客注意入山證申請及避免錯過三角點。
薪水的高低,從來不是努力的問題,而是思維的選擇。年薪百萬的人,不是單靠埋頭苦幹,而是透過「創造價值」決定自己的價格。他們懂得提升不可取代性、創造多重收入、主動尋找機會、投資自己,讓財富加速成長。與其等加薪,不如掌握「決定薪資的能力」。這篇文章,讓你看清真正的收入差距,從現在開始,為自己創造更高價值!
你可能也想看
Google News 追蹤
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 99 到 AI說書 - 從0開始 - 121,我們完成書籍:Transformers for Natural Language Proc
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。 現在我們來載入預訓練權重,預訓練的權重包含 Transformer 的智慧
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 73 到 AI說書 - 從0開始 - 96,我們完成書籍:Transformers for Natural Language Proce
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 下游任務是一個 Fine-Tuned 的 Transformer 任務,它從預先訓練的 Transformer 模型繼承模型和參數,故,下游任務是運行微調任務的預訓練模
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 20中,闡述GPT模型的Supervised and Unsupervised觀點,接著一樣引述書籍:Transformers f
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 已經在AI說書 - 從0開始 - 12以及AI說書 - 從0開始 - 13中見識到TPU的威力了,現在我們把參數放大到真實大型語言模型的規模,看看運算時間的等級。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 99 到 AI說書 - 從0開始 - 121,我們完成書籍:Transformers for Natural Language Proc
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。 現在我們來載入預訓練權重,預訓練的權重包含 Transformer 的智慧
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 73 到 AI說書 - 從0開始 - 96,我們完成書籍:Transformers for Natural Language Proce
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 下游任務是一個 Fine-Tuned 的 Transformer 任務,它從預先訓練的 Transformer 模型繼承模型和參數,故,下游任務是運行微調任務的預訓練模
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 20中,闡述GPT模型的Supervised and Unsupervised觀點,接著一樣引述書籍:Transformers f
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 已經在AI說書 - 從0開始 - 12以及AI說書 - 從0開始 - 13中見識到TPU的威力了,現在我們把參數放大到真實大型語言模型的規模,看看運算時間的等級。