第二部：《深度學習》63/100 GPT 架構與自回歸生成 ✏ 一個字一個字寫出來的神奇魔法！

Hansen W

發佈於AI科技機器學習修煉坊

2025/09/22 更新2025/09/22 發佈閱讀 11 分鐘

AI時代系列(2) 機器學習三部曲: 🔹 第二部：《深度學習 —— 神經網路的革命》

63/100 第七週：📌 語言模型與生成式 AI（BERT、GPT）🗣🔍

63.GPT 架構與自回歸生成 ✏ 一個字一個字寫出來的神奇魔法！

________________________________________

🎯 單元導讀：

你是否想過：ChatGPT 是如何一字一句流暢地寫出一篇文章或回答問題的？

答案就在 GPT 模型背後的神奇機制——自回歸語言模型（Autoregressive Language Model）。

GPT（Generative Pretrained Transformer）透過逐字生成，一步步延伸語句，是目前最強大的語言生成模型之一。

________________________________________

🧠 一、什麼是 GPT？

🔷 定義：

GPT（Generative Pre-trained Transformer）是由 OpenAI 所提出的一種自然語言處理模型，專門用於文字生成（Generative），其架構完全基於 Transformer 中的 Decoder 結構，屬於自回歸語言模型（Autoregressive Language Model）。

🔁 自回歸語言建模（Autoregressive LM）：

這個公式就是在說：

「整段文字出現的機率，是每個字在它前面所有字已經出現的前提下，它自己出現的機率的總乘積。」

這種方式就是 GPT 模型「逐字預測」的數學基礎。模型每次只看前文，不看後文，是單向（Left-to-Right）建模。這也是 GPT 與 BERT 最大的差別之一（BERT 是雙向）。

✅ 解釋：

📌 類比：GPT 的寫作過程就像是一個作家，每次只讀取前面寫過的句子，然後試著猜下一個字或詞。

✏️ 舉例說明：

假設一個句子是：「我愛你」，這句話有 T=3 個詞（token）：

P(我愛你)=P(我)⋅P(愛∣我)⋅P(你∣我愛)

這就說明：

第 1 個詞「我」的出現機率是 P(我)

接著在「我」出現後，產生「愛」的機率是 P(愛 | 我)

最後在「我愛」已出現後，預測「你」的機率是 P(你 | 我愛)

________________________________________

✨ 二、GPT 的訓練流程

首先是預訓練（Pretraining），模型會閱讀大量網路語料（如書籍、文章、程式碼等），透過從前文預測下一個詞的方式進行語言學習，建立基本的語言理解與生成能力。接著進入微調（Fine-tuning）階段，針對特定任務如對話、摘要、翻譯、問答等，進行資料標註與調整，讓模型能應用在實際任務上。最後是指令微調與強化學習人類回饋（RLHF），透過人類給予的評分與偏好訓練，進一步讓模型的回應更符合使用者期待，像是 ChatGPT 就使用了這個技術，使其更懂得「如何對話」。

________________________________________

🏗 三、GPT 架構核心：Decoder-only Transformer

元件功能說明

Token Embedding 將詞彙轉為向量

Positional Encoding 加入順序資訊

多層 Decoder Block 每層含：Masked Self-Attention + FeedForward

Linear + Softmax 輸出詞彙機率分布

✅ 重點特色：

• 使用 Masked Self-Attention：只能看到前面 token，不能偷看未來

• 模型每一步只知道「到目前為止已生成的文字」

________________________________________

✏ 四、生成文字的步驟（推論時）

假設起始語句為：

"The future of AI is"

GPT 將依序產生：

→ "The future of AI is bright"

→ "The future of AI is bright and"

→ "The future of AI is bright and exciting"

➡️ 每一次輸出都只基於前面的詞進行預測與延伸

________________________________________

🧩 五、GPT 系列演進簡述

模型版本特點

GPT 最初版本，開啟 Decoder-only 自回歸架構

GPT-2 大規模訓練，具備基本生成能力（未開源全文）

GPT-3 引入 175B 參數，支持 few-shot、zero-shot 學習能力

GPT-3.5 + 對話優化 + RLHF（人類偏好強化學習）

GPT-4 支援圖文輸入、邏輯推理更強、多語言能力提升

________________________________________

📊 六、BERT vs GPT 簡易對照

BERT 和 GPT 是兩種基於 Transformer 架構的語言模型，但設計理念與應用方向不同。BERT 採用 Encoder 架構，透過遮蔽（Masked）語言模型來學習詞與詞之間的雙向關係，特別適合用於理解類任務，如文本分類、命名實體辨識與問答系統。

相對地，GPT 採用 Decoder 架構，使用自回歸語言模型，從左至右逐字生成文字，因此擅長於創造式任務，像是寫作、對話、摘要等。在推論階段，BERT 是「填空型」模型，不會主動生成文字；而 GPT 則是「寫作型」模型，會一個字一個字地依序生成文字，構成連貫的句子與篇章。

________________________________________

🧪 七、小結與學習啟示：

✅ GPT 使用自回歸策略，讓模型學會在「每一步預測」中延伸語句

✅ 單純 Decoder 結構，簡潔卻強大，適合文字生成與對話應用

✅ 是 ChatGPT、寫詩機器、AI小說家的核心技術基礎！

________________________________________

💬 問題挑戰與思考：

💡 1. 為什麼 GPT 要遮住未來詞？如果不遮會發生什麼事？

GPT 採用自回歸（Autoregressive）語言建模，其訓練目標是「只根據前文預測下一個詞」。

為了模擬這個生成過程，模型在訓練時必須遮住未來的詞（即使用 causal mask），確保每一個位置只看到前面的資訊。

✅ 如果不遮住未來詞（改成像 BERT 一樣看到整句）：

• 模型會偷看到答案，失去語言生成所需的因果順序。

• 模型學到的就不是自然的語言序列生成，而是類似填空的任務，將無法正確地「一個字一個字」地進行創作。

📌 結論：遮住未來詞是為了保持生成任務的因果性與語言連貫性，這是 GPT 的根本特性。

________________________________________

💡 2. 與 BERT 相比，GPT 在問答任務上表現如何？需額外設計哪些機制？

BERT 本身就是為問答等理解任務而設計，能同時讀取上下文，非常適合從文章中定位答案（如 SQuAD 問答）。

GPT 則是生成模型，要在問答任務中表現良好，需透過以下方式進行調整：

🔧 補充機制：

• 📘 Prompt 設計：以「問句 + 文本」的方式設計 prompt，讓模型知道問題與參考內容。

• 🧠 指令微調（Instruction Tuning）：如 ChatGPT 所用，加入大量問答範例來訓練模型理解問答任務。

• 🧮 檢索強化生成（RAG）或檢索式問答（Retrieval-Augmented QA）：讓 GPT 查資料後再作答，提高正確率。

• 🗃️ 知識微調（Fine-tune on QA Datasets）：用特定 QA 資料集微調，如 Natural Questions、TriviaQA。

📌 結論：GPT 若無額外設計，較不擅長定位式問答，但經過指令微調與檢索機制後，其在開放性問答表現非常強大，甚至超越傳統 BERT。

________________________________________

💡 3. 如何提升 GPT 在生成過程中的「一致性」與「創意平衡」？

在生成任務中，最大的挑戰是如何在「內容合理」與「表達有創意」之間取得平衡。為此，我們可透過多種技術手段來調整生成行為。例如，溫度（Temperature）控制可調整生成的隨機性，溫度低時結果更穩定、保守，溫度高則能帶來更多創意與變化；Top-k 或 Top-p 抽樣則限制模型只從最可能的詞中選擇，避免產生不相關內容。

為了提升語意一致性，還可導入**長程記憶機制與鏈式思考策略（CoT）來追蹤上下文邏輯，維持語境連貫。最後，透過強化學習結合人類回饋（RLHF）**訓練，能讓模型更貼近人類偏好與常識表達。整體來說，「一致性」仰賴上下文記憶與邏輯推理，而「創意」則需透過機率控制與多樣性策略來實現，兩者需根據應用場景進行動態調整與平衡。

Hansen W的沙龍AI科技機器學習修煉坊

留言

留言分享你的想法！

Hansen W的沙龍

16會員

459內容數

AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台，主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例，更強調理性思維與行動力的結合。無論你是AI初學者、創業者，還是追求人生升維的行者，都能在這裡找到前進的方向與志同道合的夥伴。

Hansen W的沙龍的其他內容

2025/09/22

第二部：《深度學習》62/100 📌 語言模型與生成式 AI（BERT、GPT）🗣🔍

BERT 是 Google 於 2018 提出的雙向 Transformer Encoder 模型，以「遮詞預測+下一句判斷」訓練，學習上下文語意。其雙向特性使其在分類、問答、NER、文本匹配等理解任務表現優異，並奠定預訓練微調新典範。

2025/09/22

第二部：《深度學習》62/100 📌 語言模型與生成式 AI（BERT、GPT）🗣🔍

2025/09/22

第二部：《深度學習》61/100 預訓練語言模型概念 📚 預先學會「語言的常識」，再微調任務！

預訓練語言模型（BERT、GPT、T5）透過大量語料先學習語言常識，再以少量資料微調，實現「一次訓練、多任務應用」。此方法降低數據需求，提升泛化能力，廣泛應用於問答、摘要、翻譯、對話與情感分析，開創 NLP 新典範。

2025/09/22

第二部：《深度學習》61/100 預訓練語言模型概念 📚 預先學會「語言的常識」，再微調任務！

2025/09/19

第二部：《深度學習》60/100 小結與測驗：用 Transformer 訓練中英文翻譯模型 🌐 自己打造多語言橋樑！

本單元總結 Transformer 核心：注意力、自注意力、多頭機制、位置編碼、Encoder-Decoder 架構與 LayerNorm。透過 PyTorch 可實作英中翻譯模型，搭配 Label Smoothing、動態學習率等技巧，提升收斂與泛化，並可遷移至摘要與對話任務。

2025/09/19

第二部：《深度學習》60/100 小結與測驗：用 Transformer 訓練中英文翻譯模型 🌐 自己打造多語言橋樑！

看更多

你可能也想看

多細胞生物的矛盾

這到底是吃創意還是吃勇氣？蝦皮雙11不想再買餅乾了！但購物車裡的……到底要先買還是後買？怎麼買才划算呢？

如果包含以前嘗試的，我肯定試超過20種以上「新奇口味」的餅乾，但現在的「新奇口味」像雨後春筍般，多到我疲乏了。所以這次雙11，我要怎麼買呢？

#香菜#酥炸辣皮蛋#鹹蛋黃

2025/11/07

多細胞生物的矛盾

這到底是吃創意還是吃勇氣？蝦皮雙11不想再買餅乾了！但購物車裡的……到底要先買還是後買？怎麼買才划算呢？

#香菜#酥炸辣皮蛋#鹹蛋黃

2025/11/07

Lala不只會露鳥🐦

【泥之家鳥物不私藏第二彈】禦寒對策！變天了，小鳥防寒對策完整攻略✨搭上雙11購物節順風車，直接一波帶走避寒神器❤️‍🔥

最近開始轉涼了，各位鳥奴們是否會開始擔心小鳥會著涼呢？不用擔心，今天這篇直接帶你看需要的商品，而且今天除了照片之外，我們也直接帶連結✨讓你的雙11購物不盲目，讓你想買直接加入購物車，除了長知識也可以直接下單避寒神器🫱🏼文章結尾也會告訴大家在花錢的同時也能省錢、賺錢的小撇步，請記得留到最後！！

#電暖器#蝦皮#雙11購物節

2025/11/05

Lala不只會露鳥🐦

【泥之家鳥物不私藏第二彈】禦寒對策！變天了，小鳥防寒對策完整攻略✨搭上雙11購物節順風車，直接一波帶走避寒神器❤️‍🔥

#電暖器#蝦皮#雙11購物節

2025/11/05

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 129 中說，Bidirectional Encoder Representations from Transformers (BER

#AI#ai#PromptEngineering

2024/08/13

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

#AI#ai#PromptEngineering

2024/08/13

Learn AI 不 BI

AI說書 - 從0開始 - 127 | BERT 和 Transformer 模型比較

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 69 的第二章內容，我們拿 Encoder 出來看：幾點注意如下： BERT 模型使用 M

#AI#ai#PromptEngineering

2024/08/11

Learn AI 不 BI

AI說書 - 從0開始 - 127 | BERT 和 Transformer 模型比較

#AI#ai#PromptEngineering

2024/08/11

Learn AI 不 BI

AI說書 - 從0開始 - 116 | Google Trax 進行推論

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型，並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing，現

#AI#ai#PromptEngineering

2024/08/06

Learn AI 不 BI

AI說書 - 從0開始 - 116 | Google Trax 進行推論

#AI#ai#PromptEngineering

2024/08/06

Learn AI 不 BI

AI說書 - 從0開始 - 81

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續xxxx，ChatGPT 產生的程式，我們將它匯入 Colab 執行看看 ( Colab 使用教學見使用Meta釋出的模型，實作Chat GPT - Part 0

#AI#ai#PromptEngineering

2024/07/10

Learn AI 不 BI

AI說書 - 從0開始 - 81

#AI#ai#PromptEngineering

2024/07/10

Learn AI 不 BI

AI說書 - 從0開始 - 75

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在 AI說書 - 從0開始 - 74 中提到，我們想要建立「Transformer 數學」與「ChatGPT 產生的文字」兩者間的關係。有鑑於此，我們以句子「

#AI#ai#PromptEngineering

2024/07/06

Learn AI 不 BI

AI說書 - 從0開始 - 75

#AI#ai#PromptEngineering

2024/07/06

Learn AI 不 BI

AI說書 - 從0開始 - 23

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續AI說書 - 從0開始 - 22解釋Foundation Model與Engines意涵後，我們來試用看看ChatGPT。嘗試問以下問題：Provide a

#AI#ai#PromptEngineering

2024/06/17

Learn AI 不 BI

AI說書 - 從0開始 - 23

#AI#ai#PromptEngineering

2024/06/17

生之道 ShengZhiDao

中文系也能和科技產生連接：略分享語言資訊處理的階段發展與趨勢

這篇文章討論了自然語言處理技術的發展歷程，從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足，並提出了自然語言處理領域的倫理使用和版權問題，以及對大眾的影響。最後，作者探討了個人在自然語言領域的發展可能性。

#語言#資訊#模型

2024/06/05

生之道 ShengZhiDao

中文系也能和科技產生連接：略分享語言資訊處理的階段發展與趨勢

#語言#資訊#模型

2024/06/05

加恩說

我終於知道怎樣跟 AI 說話了：最完整的 ChatGPT 指令公式

#AI寫作#GPT指令與策略#AI

2024/05/10

加恩說

我終於知道怎樣跟 AI 說話了：最完整的 ChatGPT 指令公式

#AI寫作#GPT指令與策略#AI

2024/05/10

江柏輝(白光)的沙龍

聊聊Chat GPT

從第一次使用到現在，使用GPT近一年的經驗分享。介紹在使用GPT時的困難、挑戰及學習到的技巧，以及如何讓GPT更好地理解所需內容。

#課程#挑戰#學習

2024/04/14

江柏輝(白光)的沙龍

聊聊Chat GPT

從第一次使用到現在，使用GPT近一年的經驗分享。介紹在使用GPT時的困難、挑戰及學習到的技巧，以及如何讓GPT更好地理解所需內容。

#課程#挑戰#學習

2024/04/14

易樂的沙龍

加油！以生成式AI 創建，各式各樣客製化精準學習AI BOT！

這篇文章介紹瞭如何利用生成式AI（GenAI）來提高學習效率，包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度，保持學術誠信，適當運用GenAI能大幅提升工作效率。

#學習#生成式AI#文章

2024/03/24

易樂的沙龍

加油！以生成式AI 創建，各式各樣客製化精準學習AI BOT！

#學習#生成式AI#文章

2024/03/24

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News