Andrej Karpathy 曾擔任特斯拉人工智慧和自動駕駛視覺總監,也是OpenAI的共同創辦人之一,專攻於深度學習和電腦視覺領域。近期在YouTube推出一部極為精彩、專為一般大眾設計的大型語言模型深度介紹影片,重點是即使你沒有技術背景,該部影片的說明也能輕鬆理解大型語言模型的完整訓練流程,以下是針對這部影片的重點介紹及有趣的地方,文章尾部有放影片連結,推薦各位看完文章後,有空的話務必觀看完整影片內容!
影片重點在於深入介紹 LLM 的三大主要訓練階段:
個人印象深刻的是 Andrej Karpathy 將上述三個訓練階段結合,提出一個相當有趣的比喻,他將大型語言模型的訓練過程,比喻為學生在學校學習的過程。他認為,讓大型語言模型變得更聰明的方式,就像教育學生一樣,必須提供適當的教材、範例、練習題,並透過不同階段的學習來提升能力。
在學校學習的第一步,是透過課本或老師的講解來獲得基礎知識。例如,學生學數學時,會先學習加減乘除的基本概念,學習物理時,會先理解牛頓定律和基本定義。這些內容通常是理論性的知識,幫助學生建立一個完整的知識體系。
大型語言模型的預訓練過程與此類似。模型在訓練初期,會從大量的文本數據中學習各種知識,這些數據來自網際網路上的文章、書籍、論文、對話等。這些資料就像是一大批教科書,提供了大量的背景資訊,使得大型語言模型可以學會語言結構、語法規則、常見的概念,以及不同領域的基本知識。
然而,這種方式的局限性在於,它雖然能讓大型語言模型獲得豐富的知識,但不代表它真的理解這些知識。因此,光靠預訓練是不夠的,還需要監督微調來進一步的「練習與指導」。
如果說預訓練是讓大型語言模型吸收大量的基礎知識,那麼監督微調(Supervised Fine-tuning)就是讓它學習「如何正確地回答問題」。這個過程類似於學生在課本上看到範例題,並觀察老師或專家的解題方式。
舉個例子,當學生學習數學時,他們通常會先看老師如何解一道微積分題目,老師會一步一步地講解推導過程。學生透過觀察老師的解法,可以學習到標準的解題步驟,知道該如何從問題出發,逐步找到正確答案。在大型語言模型的訓練中,這個過程就是監督微調。研究人員會提供大量「標準回答」來訓練大型語言模型,讓它學習如何回答問題。
透過這種方式,大型語言模型變得更有條理,也能模仿專家的回答風格。然而,這種方式仍然存在一定的限制,因為它只是在模仿,而不是真的「學習解決問題的能力」。這就像學生雖然看過範例題,但不代表他能解決所有類似的問題。因此,我們還需要強化學習來進一步提升大型語言模型的能力。
學生在學習新知識時,最重要的環節是「實戰練習」,也就是親自動手做題目。這個過程幫助學生鞏固所學,並透過試錯學習來進一步理解概念。例如,在數學課本的每一章結束時,通常會有大量的練習題,這些題目沒有詳細的解法,學生需要自己思考,試著找出正確答案。
大型語言模型的強化學習與此相似。在這個階段,模型不再只是模仿標準答案,而是要自己試著回答問題,然後透過回饋機制來調整自己的答案。這通常透過獎勵機制來實現,例如當大型語言模型給出一個好答案時,研究人員會給它一個正向回饋,讓它知道這樣的回答是好的;如果答案不夠好,則會給予負向回饋,讓它學習如何改進。這種方式讓大型語言模型的學習更加靈活,能夠透過試錯學習來提升自己的能力
影片連結:https://www.youtube.com/watch?v=7xTGNNLPyMI
我是TN科技筆記,如果喜歡這篇文章,歡迎留言或轉發給朋友給我支持鼓勵!!