淺談大型語言模型(LLM)原理:從原理到訓練解析

更新於 發佈於 閱讀時間約 8 分鐘
raw-image

最近因為自己 side project 及求職的緣故,開始認真了解 ML(Machine Learning) 和 LLM(Large Language Model) 的相關知識,主要的學習管道是台大李宏毅教授的Youtube頻道,課程深入淺出,大力推薦。本篇文章的主要內容,是將李宏毅教授的課程內容作濃縮及統整,以問答的方式呈現,用我自己的話寫成。

一、所以什麼是LLM?

所謂的 ML 或 LLM 其實就是一個函式,也就是輸入與輸出的關係,函式輸出的內容可以分為三種類型,你知道 LLM 是屬於哪一種嗎?

raw-image
  1. 迴歸(Regression):輸出「數值」 e.g. 輸入當天的空氣各項數值,輸出明天的PM2.5濃度數值。
  2. 分類(Classification):輸出一個「類別」(從有限的選項中作選擇題) e.g.有限的選項是貓跟狗,輸入圖像給模型,模型輸出他是貓還是狗。
  3. 結構化的內容(Structured Learning):輸出「有結構的物件」(圖像、文句),也就是所謂的「生成式學習」(Generative Learning)e.g. 輸入文字說明,輸出圖片。

看到這裡你一定會拍案而起,大聲說:我知道了! LLM 就是第三種,我輸入文句給他,他也回應我結構化的文句。可惜並不能這麼說,這需要進入到第二個主題「LLM 的原理是什麼?」詳加說明後,會比較好理解。

不過可以知道的是,所謂 LLM,就是輸出文句(語言)的模型,而其中的「大型」是指這個模型的參數很多。

二、LLM 的原理是什麼?

raw-image

開門見山地說,LLM 的原理就是在做「文字接龍」,根據你給模型的內容(雙方說的話都會丟進接龍前的字串內),模型去接下一個字,並且一路往後接下去,直到接到結束符號(ex.句號)為止。舉個例子,你輸入「台灣大」,模型往下接「學」,然後他拿「台灣大學」繼續往下接,接一個「生」,得到「台灣大學生」……,一路接到結束符號,完成對你的回覆。

而模型要如何決定下一個字要接什麼呢? 透過機率。可以理解為當模型拿到「台灣大」時,後面所有可能接的字是一個機率分布的狀態,透過機率,半隨機性(擲骰子式)地決定這次要接什麼字,這也是為什麼即使問同一個問題,語言模型總是輸出不同內容的緣故。(至於為什麼不直選擇接機率最高的那個字就好,簡單來講兩個原因:容易迴圈、接出來的內容質量反而不理想)。這時候你可能要問了:那模型又是怎麼得到這個機率分布的呢? 這就要進入下一個主題「LLM 的是怎麼訓練而成的?」來說明。

三、LLM 是怎麼訓練而成的?

LLM 的訓練可以分為三個階段:預訓練(Pre-training)、督導式學習(Supervised Learning)、增強式學習(Reinforced Learning)。

1.第一階段:預訓練(Pre-training)

在這個階段,就是讓模型自己去爬大量的內容(網路文章、論壇、論文……),自己去產生前面講到的機率分布。舉個例子:你的一篇網誌上寫了一句話「陽明山天氣很好」,當模型爬到你這篇網誌,他就學到「陽」後面可以接「明」,「陽」後面接「明」的機率要提高,依此類推。透過網路上近乎無窮盡的內容,來不斷學習,進而使能力增強。其實早在 ChatGPT 爆紅前(ChatGPT 3.5 前的版本),拿來給 ChatGPT 做預訓練的資料量就已經大到不可思議,以2020年發布的 ChatGPT 3.0 版本為例,拿來做預訓練的資料量是580GB,相當於閱讀哈利波特全集30萬遍,幾乎已超過一個人一生的閱讀量。然而即使如此,直接拿 ChatGPT 3.0 來用,效果仍不盡理想,答題正確率只有約50%上下的水準(因此當時還有不少人認為 OpenAI 走錯方向了)。那是什麼讓後來 ChatGPT 的水準大幅提升,乃至驚豔世人呢? 這就要說到第二階段的「督導式學習」。

2.第二階段:督導式學習(Supervised Learning)

縱軸為模型優劣; 橫軸為模型大小。資料來源:李宏毅教授Youtube channel簡報。

縱軸為模型優劣; 橫軸為模型大小。資料來源:李宏毅教授Youtube channel簡報。

如果說經過預訓練的 ChatGPT 3.0 是一個「已經很聰明,但自己亂學、沒人教,獨自長大的孩子」,那「督導式學習」就是人類導師的加入。督導式學習是由人類告訴模型「完整的正確答案」,舉個例子:告訴模型,只要看到「台灣最高的山是哪座?」就接「玉山」(將機率提到非常非常高)。像這樣的「正確答案」資料量不需要大,以 Meta 最新推出的 Llama2 為例,也就2萬多筆資料而已。然而就透過這1~2萬筆的督導式學習資料,卻可以讓模型的正確度有質的飛躍(上圖淺藍線為僅經過預訓練模型,紅色為經過督導式學習模型。可以看到經過督導式學習的最小模型,其能力也勝過僅經過預訓練的最大模型),可謂是畫龍點睛的作用。而這個對「已經經過預訓練的模型加入監督式學習」的行為,我們稱為"Fine-tune"。

然而,因為督導式學習需要提供「完整的正確答案」,所需付出的成本較高,為了能持續強化模型的能力,因此有第三階段「增強式學習」的出現。

3.第三階段:增強式學習(Reinforced Learning)

raw-image

相比於督導式學習所需提供「完整的正確答案」,增強式學習僅需提供模型「答案的好與壞」。舉例來說,你給模型同樣的輸入「世界最高山是哪座?」兩次,他分別給出「喜馬拉雅山」及「有人可以跟我說嗎?」兩個答案,此時你告訴模型前答案優於後答案,模型就將前答案的機率提高,後答案的機率降低。甚至,我們還可以訓練一個 Reward Model,用來專門幫語言模型的答案打分數,如此訓練的流程中就不太需要人類導師的參與了,透過不斷提高好答案的機率、降低壞答案的機率,讓模型的能力不斷提升。

講到這邊,也可以說明為什麼增強式學習會放在訓練的最後階段。因為 Reinforced Learning 僅是幫模型給出的答案打分數,所以模型必須先有能力產出好的答案(偶有佳作)才行,否則模型給出清一色不好的答案,也只是在爛蘋果中挑一顆比較不爛的而已。

四、結語

講完了這麼多,回到最一開始的問題:你知道 LLM 是屬於 ML 分類裡迴歸、分類、結構化內容的哪一種嗎?(一般人開頭一定是搶答"結構化內容"XD

其實,LLM 是屬於分類(Classification)。還記得我們上面所說,分類就是「從有限的選項中作選擇題」(所謂的「有限」是指可以窮盡),透過以上內容,應該不難發現模型是從「有限的字」中挑選其中一個,作為接續的選擇,也就是說用「分類」去解「結構化內容」的題目(用戶的感知是「結構化內容」,但他的原理是「分類」)。

最後分享幾個知識點

  1. 「督導式學習 + 增強式學習」我們把他叫「對齊」(Alignment),意指將模型對齊人類的需求。
  2. LLM 的參數量多寡可以理解為「先天的資質」,而丟給他訓練的資料量可以理解為「後天的努力」。透過監督式學習的發現,我們可以知道:受到人類導師指導過先天資質比較差模的型,能力是可以大幅贏過沒有受過人類導師指導但天資較佳模型的喔。
  3. 模型接龍時,所有可以選擇的符號就叫做"Token”,每次輸出就是輸出一個 token。有趣的是,以英文來說,一個 token 不一定代表一個英文字母、也不一定代表一個英文單字,舉個例子:"I am unkillable.”這段英文,他是由共6個 token 組成:"I, am, un, kill, able, ."(其實有點類似字根字首)。繁體中文就不一定了,ChatGPT(2023當時的版本)是把一個中文字拆成好幾個 token,有些模型則是把一個中文字當成一個 token。
資料來源:李宏毅教授Youtube channel簡報。

資料來源:李宏毅教授Youtube channel簡報。


以上就是這次全部的分享內容,謝謝大家。

2024/6/10,新北林口,鯛魚

留言
avatar-img
留言分享你的想法!
avatar-img
英特來糗
5會員
22內容數
兩位對知識懷抱熱忱的大學同學主筆,一些科技、經濟、職涯知識分享。透過分享我們的已知,希望幫助在同一條道上的人走得更順利,未見得正確,能燃起一些火花足矣。 - 筆者 鯛魚:政大差點延畢,現職軟體產品經理。 筆者 小胡:政大雙主修經濟、上海復旦經濟學碩士,現職銀行數據分析師。
英特來糗的其他內容
2025/04/17
離開角色,剩下什麼? 出社會幾年了,觀察到身邊有不少人將自己的幾乎所有精力都投注在工作上面,有些人甚至將這種「忙」視為一種引以為傲的東西,似乎在映襯著自己很有價值。這於我倒沒有什麼干係,只是有時候看著這些人不免感到有些憂心與惋惜,感覺他們太沈浸在扮演「角色」了,是否有給足自己的靈魂關愛與澆灌呢?
Thumbnail
2025/04/17
離開角色,剩下什麼? 出社會幾年了,觀察到身邊有不少人將自己的幾乎所有精力都投注在工作上面,有些人甚至將這種「忙」視為一種引以為傲的東西,似乎在映襯著自己很有價值。這於我倒沒有什麼干係,只是有時候看著這些人不免感到有些憂心與惋惜,感覺他們太沈浸在扮演「角色」了,是否有給足自己的靈魂關愛與澆灌呢?
Thumbnail
2025/04/13
本文淺顯地說明圖像生成式 AI 的原理:與文字生成有何不同,又是怎樣透過 Diffusion Model 反覆「修圖」,才能生成出清晰的圖片,逐步講解圖像生成的核心邏輯。旨在讓非技術背景的讀者也能快速理解這項 AI 關鍵技術,適合對 AI 應用有興趣但不熟悉原理的入門讀者閱讀。
Thumbnail
2025/04/13
本文淺顯地說明圖像生成式 AI 的原理:與文字生成有何不同,又是怎樣透過 Diffusion Model 反覆「修圖」,才能生成出清晰的圖片,逐步講解圖像生成的核心邏輯。旨在讓非技術背景的讀者也能快速理解這項 AI 關鍵技術,適合對 AI 應用有興趣但不熟悉原理的入門讀者閱讀。
Thumbnail
2025/04/11
薪水低,不一定是你不夠好,而是「薪水與能力脫節了」。這篇文章分享我如何用三年薪水翻倍的實戰經驗,拆解能力成長、薪資觀察與跳槽節奏,讓打工人賺到自己值得的價值。
Thumbnail
2025/04/11
薪水低,不一定是你不夠好,而是「薪水與能力脫節了」。這篇文章分享我如何用三年薪水翻倍的實戰經驗,拆解能力成長、薪資觀察與跳槽節奏,讓打工人賺到自己值得的價值。
Thumbnail
看更多
你可能也想看
Thumbnail
沙龍一直是創作與交流的重要空間,這次 vocus 全面改版了沙龍介面,就是為了讓好內容被好好看見! 你可以自由編排你的沙龍首頁版位,新版手機介面也讓每位訪客都能更快找到感興趣的內容、成為你的支持者。 改版完成後可以在社群媒體分享新版面,並標記 @vocus.official⁠ ♥️ ⁠
Thumbnail
沙龍一直是創作與交流的重要空間,這次 vocus 全面改版了沙龍介面,就是為了讓好內容被好好看見! 你可以自由編排你的沙龍首頁版位,新版手機介面也讓每位訪客都能更快找到感興趣的內容、成為你的支持者。 改版完成後可以在社群媒體分享新版面,並標記 @vocus.official⁠ ♥️ ⁠
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續AI說書 - 從0開始 - 22解釋Foundation Model與Engines意涵後,我們來試用看看ChatGPT。 嘗試問以下問題:Provide a
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續AI說書 - 從0開始 - 22解釋Foundation Model與Engines意涵後,我們來試用看看ChatGPT。 嘗試問以下問題:Provide a
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 已經在AI說書 - 從0開始 - 12以及AI說書 - 從0開始 - 13中見識到TPU的威力了,現在我們把參數放大到真實大型語言模型的規模,看看運算時間的等級。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 已經在AI說書 - 從0開始 - 12以及AI說書 - 從0開始 - 13中見識到TPU的威力了,現在我們把參數放大到真實大型語言模型的規模,看看運算時間的等級。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News