LLM 004｜創建大語言模型需要哪兩個關鍵階段？

發佈於LLM 筆記

2024/04/26 更新2024/04/26 發佈閱讀 1 分鐘

從頭開始寫大語言模型的程式碼，

是最好理解大語言模型的機制與限制的方風。

從頭開始寫大語言模型的程式碼，可以幫助我們得到預訓練與微調整開源大語言模型架構所需要的知識，並應用到特定領域的數據及以及任務。

客製化大語言模型一般來說比起通用大語言模型有更好的表現。

一個具體的例子是BloombergGPT是專門於金融的大語言模型。

其他也有專門做醫療問答的大語言模型。

創造一個大語言模型包含「預訓練」與「微調整」兩個階段。

預訓練階段是在大量多種的數據集訓練大語言模型去開發語言理解。

這種預訓練模型作為基礎資源，可進行近一步的微調整。

微調整是在一個更狹義的數據集，對特定的任務與領域做額外改良的過程。

創造大語言模型的第一步，是在巨大的文本語料庫來訓練。

這種文本又稱為「原始文本 (Raw Text)」，表達數據只是一般的文本，沒有任何標籤的資訊。

大語言模型的第一訓練階段是「預訓練」，構造基礎模型，例如GPT-3模型。

基礎模型能夠做「文本補齊 Text Completion」，也就是將寫到一半的句子補成完整句子的能力。

大語言模型還有有限的「小樣本 Few-Shot」能力，也就是使用少量的樣本，大語言模型就能學習做新的任務。

這個能力的秘密，就在對不同的任務使用不同的Transformers。

「微調整 Finetuning」則是將預訓練的大語言模型進一步使用有標籤的數據來訓練。

在微調整大語言模型的任務中，兩類最受歡迎的是「指令微調 Instruction-Finetuning」與為了分類任務而做微調整。

在指令微調任務中，有貼標籤的數據集有一對對的指令與答案，例如給一段文本以及正確翻譯的文本。

在分類微調中，有貼標籤的數據集是一對對文本與類別標籤，例如一封郵件與垃圾信/非垃圾信的標籤。

#大語言模型

王啟樺的沙龍LLM 筆記

留言

留言分享你的想法！

王啟樺的沙龍

639會員

2.0K內容數

Outline as Content

王啟樺的沙龍的其他內容

2024/04/28

LLM 006｜BERT與GPT是怎麼從Transformer演化來的？

在上一期「LLM 005｜大語言模型是如何利用Transformer理解語言的？」我們提到，Transformer是大語言模型理解語言的關鍵。而Transformer架構兩個主要的後代是BERT以及GPT。 BERT是bidirectional encoder representati

2024/04/28

LLM 006｜BERT與GPT是怎麼從Transformer演化來的？

在上一期「LLM 005｜大語言模型是如何利用Transformer理解語言的？」我們提到，Transformer是大語言模型理解語言的關鍵。而Transformer架構兩個主要的後代是BERT以及GPT。 BERT是bidirectional encoder representati

2024/04/27

LLM 005｜大語言模型是如何利用Transformer理解語言的？

現代大語言模型建構於Transformer結構。 Transformer結構是源自於2017年著名論文 Attention Is All You Need的深度神經網路結構。原始的Trasformer是為了機器翻譯發展，當初的任務是將英文翻譯成德文與法文。 Transformer

2024/04/27

LLM 005｜大語言模型是如何利用Transformer理解語言的？

現代大語言模型建構於Transformer結構。 Transformer結構是源自於2017年著名論文 Attention Is All You Need的深度神經網路結構。原始的Trasformer是為了機器翻譯發展，當初的任務是將英文翻譯成德文與法文。 Transformer

2024/04/25

LLM 003｜人工智慧如何從數據中學習？

大語言模型能夠生成文本，因此被認為是生成式人工智慧的一種形式。人工智慧的學科任務，是製作機器，使其能執行需要人類智慧才能執行的任務，例如理解語言，便是模式，做出決策。除了大語言模型，人工智慧也包含了深度學習以及機器學習。機器學習的學科任務，是透過演算法來實踐AI。特別

2024/04/25

LLM 003｜人工智慧如何從數據中學習？

大語言模型能夠生成文本，因此被認為是生成式人工智慧的一種形式。人工智慧的學科任務，是製作機器，使其能執行需要人類智慧才能執行的任務，例如理解語言，便是模式，做出決策。除了大語言模型，人工智慧也包含了深度學習以及機器學習。機器學習的學科任務，是透過演算法來實踐AI。特別

你可能也想看

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

還在煩惱平凡日常該如何增添一點小驚喜嗎？全家便利商店這次聯手超萌的馬來貘，推出黑白配色的馬來貘雪糕，不僅外觀吸睛，層次豐富的雙層口味更是讓人一口接一口！本文將帶你探索馬來貘雪糕的多種創意吃法，從簡單的豆漿燕麥碗、藍莓果昔，到大人系的奇亞籽布丁下午茶，讓可愛的馬來貘陪你度過每一餐，增添生活中的小確幸！

#懶人料理#食譜#健康甜點

2025/10/15

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

還在煩惱平凡日常該如何增添一點小驚喜嗎？全家便利商店這次聯手超萌的馬來貘，推出黑白配色的馬來貘雪糕，不僅外觀吸睛，層次豐富的雙層口味更是讓人一口接一口！本文將帶你探索馬來貘雪糕的多種創意吃法，從簡單的豆漿燕麥碗、藍莓果昔，到大人系的奇亞籽布丁下午茶，讓可愛的馬來貘陪你度過每一餐，增添生活中的小確幸！

#懶人料理#食譜#健康甜點

2025/10/15

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 129 中說，Bidirectional Encoder Representations from Transformers (BER

#AI#ai#PromptEngineering

2024/08/13

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 129 中說，Bidirectional Encoder Representations from Transformers (BER

#AI#ai#PromptEngineering

2024/08/13

Learn AI 不 BI

AI說書 - 從0開始 - 88

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。以下陳述任務 (Task)、模型 (Model)、微調 (Fine-Tuning)、GLUE (General Language Understanding Evalu

#AI#ai#PromptEngineering

2024/07/14

Learn AI 不 BI

AI說書 - 從0開始 - 88

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。以下陳述任務 (Task)、模型 (Model)、微調 (Fine-Tuning)、GLUE (General Language Understanding Evalu

#AI#ai#PromptEngineering

2024/07/14

Learn AI 不 BI

AI說書 - 從0開始 - 86

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明，有一個很重要的結論：最適合您的模型不一定是排行榜上最好的模型，您需要學習 NLP 評

#AI#ai#PromptEngineering

2024/07/13

Learn AI 不 BI

AI說書 - 從0開始 - 86

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明，有一個很重要的結論：最適合您的模型不一定是排行榜上最好的模型，您需要學習 NLP 評

#AI#ai#PromptEngineering

2024/07/13

Learn AI 不 BI

AI說書 - 從0開始 - 18

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在AI說書 - 從0開始 - 17中，介紹了大型語言模型 (LLM)世界裡面常用到的Token，現在我們來談談OpenAI的GPT模型如何利用Inference

#AI#ai#PromptEngineering

2024/06/15

Learn AI 不 BI

AI說書 - 從0開始 - 18

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在AI說書 - 從0開始 - 17中，介紹了大型語言模型 (LLM)世界裡面常用到的Token，現在我們來談談OpenAI的GPT模型如何利用Inference

#AI#ai#PromptEngineering

2024/06/15

Marcos的方格子

大型語言模型常用的提詞框架 | Coursera 課程回顧(下)

大型語言模型（Large Language Model，LLM）是一項人工智慧技術，其目的在於理解和生成人類語言，可將其想像成一種高階的「文字預測機器」，然而，它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外，今天我們會介紹使用 LLM 的框架。

#PromptPattern#LLM#ChatGPT

2024/03/09

Marcos的方格子

大型語言模型常用的提詞框架 | Coursera 課程回顧(下)

大型語言模型（Large Language Model，LLM）是一項人工智慧技術，其目的在於理解和生成人類語言，可將其想像成一種高階的「文字預測機器」，然而，它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外，今天我們會介紹使用 LLM 的框架。

#PromptPattern#LLM#ChatGPT

2024/03/09

AI 模型的進化｜從大型語言模型LLM 到多模態模型LMM

大型語言模型(LLM)是基於深度學習的自然語言處理模型，而多模態模型(LMM)能處理多種資料型態。這些模型將對未來帶來重大改變。LLM 專注於理解和生成自然語言，LMM 能夠處理跨模態的內容，並整合多種資料的能力，有望成為未來趨勢。

#ChatGPT#AI#人工智慧

2024/02/24

AI 模型的進化｜從大型語言模型LLM 到多模態模型LMM

大型語言模型(LLM)是基於深度學習的自然語言處理模型，而多模態模型(LMM)能處理多種資料型態。這些模型將對未來帶來重大改變。LLM 專注於理解和生成自然語言，LMM 能夠處理跨模態的內容，並整合多種資料的能力，有望成為未來趨勢。

#ChatGPT#AI#人工智慧

2024/02/24

Marcos的方格子

大型語言模型常用的 Design Pattern | Coursera 課程回顧(上)

大型語言模型（Large Language Model，LLM）是一項人工智慧技術，其目的在於理解和生成人類語言，可將其想像成一種高階的「文字預測機器」。 Prompt Pattern 是給予LLM的指示，並確保生成的輸出擁有特定的品質（和數量）。

#PromptPattern#LLM#chatgpt

2024/02/13

Marcos的方格子

大型語言模型常用的 Design Pattern | Coursera 課程回顧(上)

大型語言模型（Large Language Model，LLM）是一項人工智慧技術，其目的在於理解和生成人類語言，可將其想像成一種高階的「文字預測機器」。 Prompt Pattern 是給予LLM的指示，並確保生成的輸出擁有特定的品質（和數量）。

#PromptPattern#LLM#chatgpt

2024/02/13

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News