關於 Transformer 架構中的Attention 機制

更新 發佈閱讀 9 分鐘

前言

自從 2022 年 ChatGPT(當時版本為 GPT-3.5)推出以來,大型語言模型(LLM)的參數量與訓練文本資料量持續增加。特別是從 GPT-4 開始,其對問題的理解力與回覆品質已達到足以應用於日常工作的水準。此外,LLM 所生成的程式碼品質也不遜於一般中高水準的工程師,甚至考量到生成速度後,實際表現可能更優異。

我因想了解 LLM 的運作原理而自學相關內容。本文將閱讀支撐 GPT 系列 LLM 的基礎架構——Transformer 架構的原始論文,並聚焦於其中最核心的要素之一:Attention 機制(中文多譯為「注意力機制」)

如今,幾乎所有的 LLM(如 ChatGPT)都建構在 Transformer 架構之上。Transformer 是於 2017 年發表的論文《Attention Is All You Need》[1] 中首次提出的。在那個時期,生成式 AI 是從以深度神經網路(DNN)應用於機器翻譯的研究中發展出來的。論文標題中的 “Attention” 一詞,正是指 Attention 機制——作者發現,相較於傳統的遞迴式神經網路(RNN),引入 Attention 後能顯著提升翻譯品質。

本文原本想完整介紹 LLM 的運作原理,但內容過於龐大,因此本文僅聚焦Transformer 架構中的 Attention 機制。也因此,從「輸入文字 → 分詞(Tokenization)→ 轉換成嵌入向量(Embedding)」的前處理流程將略過,直接從「Token 嵌入向量」開始說明。

本文適合具備基本線性代數與神經網路概念的讀者閱讀。

關於用語的補充

一般提到 AI(人工智慧) 時,泛指所有與智慧型系統相關的技術範疇。本文為了明確區分,將如 ChatGPT 這類能訓練大量文字、理解並生成自然語言的神經網路,稱為 LLM(Large Language Model,大型語言模型),並與 AI 作區別。


Transformer 原始論文概要

在《Attention Is All You Need》一文中,作者提出了以 Attention 機制為核心 的 Transformer 架構。後來的 GPT(Generative Pre-trained Transformer)即是以Transformer 的 解碼器(Decoder)部分 為基礎設計,用於需要生成文字的任務。該論文共有七章,包含參考文獻約 15 頁,閱讀難度適中,建議對此領域有興趣者可親自閱讀。

論文中的主要內容摘要

  1. 傳統的序列轉換模型多基於複雜的遞迴式或卷積式神經網路,而 Transformer 是一種完全以 Attention 為基礎、去除了遞迴與卷積結構的新型架構
  2. Transformer 透過 Attention 機制捕捉輸入與輸出之間的長距依賴關係,並達成高效並行運算。作者僅用 8 張 P100 GPU 訓練 12 小時,即達到當時翻譯品質的最佳水準。
  3. Self-Attention(自注意機制)可關聯序列中不同位置的資訊,用於閱讀理解、摘要生成、語意推理等任務。
  4. Transformer 是首個僅依賴 Self-Attention,而不使用 RNN 或 CNN 的序列轉換模型。

Transformer 架構概述

Transformer 採用「編碼器(Encoder)」與「解碼器(Decoder)」結構。例如將英文句子 “This is an example” 翻譯成德文 “Das ist ein Beispiel”:

  • 編碼器(Encoder):將輸入文字轉換成對應的嵌入向量(Embedding)。
  • 解碼器(Decoder):根據已翻譯部分(如 “Das ist ein”),逐步生成下一個字(“Beispiel”)。

為什麼要用 Self-Attention?

在論文第 4 章中,作者說明了 Self-Attention 的動機與計算優勢,並與 CNN 進行比較。其一大優點是:Self-Attention 具備可解釋性(Interpretability)。不同的注意力頭(Attention Head)傾向捕捉不同層次的語法或語意結構,這讓模型不僅能學習上下文關係,也能展現語意層面的理解。


Transformer 與 GPT 架構的差異

GPT 架構僅採用 Transformer 的 Decoder 部分,不包含 Encoder。

模型會在每次迭代時產生一個新字,並將其作為下一次的輸入。


Attention 機制是什麼?

簡單來說,Attention 機制 是讓模型在處理輸入 Token 嵌入時,考慮上下文關係的方式。以句子 “Your journey starts with one step” 為例,「journey」的語意會根據上下文改變:

  • 若搭配 “travel”,是「實際旅程」;
  • 若搭配 “one step”,則是「人生旅程」。
    模型透過 Attention 來「關注」這些關聯,進而判斷詞義。

Attention 的數學基礎

Attention 的核心計算是 QueryKey 向量的內積(dot product),代表兩者的相似程度。再經過 Softmax 正規化,得到對每個 Token 的「注意力分數(Attention Score)」。最後將各 Token 的 Value 向量 按權重加總,形成 Context 向量,代表該詞在整句中的語境意義。


Scaled Dot-Product Attention(縮放點積注意力)

實際論文中的 Attention 計算採用「縮放點積注意力」:

raw-image


這裡的 frac{1}/{sqrt{d_k}}​ 是為了防止維度過高造成 Softmax 梯度消失,使模型更穩定。


Multi-Head Attention(多頭注意力)

Transformer 並非僅使用一組 Attention,而是同時並行多組 Scaled Dot-Product Attention。這讓模型能從不同的語意角度關注資訊,進而提升準確度。



Masked Attention(遮罩注意力)

在 Decoder 階段,模型需要「自回歸(Autoregressive)」地生成文字。因此,當模型預測下一個字時,只能關注當前與過去的 Token,而不能偷看未來的字。 這透過在Attention 中加入 遮罩(mask) 實現。



總結

本文透過回顧 Transformer 架構與 Attention 機制,說明了 LLM 理解與生成語言的核心原理。GPT 類模型雖僅使用 Transformer 的 Decoder,但其高效語境建模能力正是來自 Attention 機制,使模型能夠在生成回覆時理解輸入文字的深層語意。



結語

新技術在普及過程中,往往伴隨過度期待與資訊雜訊。如同當年的區塊鏈熱潮,生成式 AI 的討論也混雜著理性與炒作。 唯有理解技術的原理,才能在評估其應用潛力與限制時保持清醒。Transformer 與 Attention 的出現,為當代 LLM 奠定了基礎。理解它們的結構,不僅有助於掌握生成式 AI 的本質,也能在技術浪潮中找到屬於自己的觀點與方向。


參考文獻

  1. Vaswani, A. et al. (2017). Attention Is All You Need. https://arxiv.org/abs/1706.03762
  2. Raschka, S. (2024). Build A Large Language Model (From Scratch). Manning Publications. ISBN: 978-1633437166


留言
avatar-img
留言分享你的想法!
avatar-img
Kiki的沙龍
4會員
51內容數
心繫正體中文的科學家,立志使用正體中文撰寫文章。 此沙龍預計涵蓋各項資訊科技知識分享與學習心得
Kiki的沙龍的其他內容
2025/10/12
最近我在 Amazon 上看到了一本以 RAG(Retrieval-Augmented Generation,檢索增強生成)精度改善 為主題的書籍。 為什麼想讀這本書 過去我讀過不少有關 RAG 精度改善的文章,在這過程中深刻感受到「提升 RAG 精度的方法真的非常多」。 雖然論文或技術文章中介紹
2025/10/12
最近我在 Amazon 上看到了一本以 RAG(Retrieval-Augmented Generation,檢索增強生成)精度改善 為主題的書籍。 為什麼想讀這本書 過去我讀過不少有關 RAG 精度改善的文章,在這過程中深刻感受到「提升 RAG 精度的方法真的非常多」。 雖然論文或技術文章中介紹
2025/10/08
在前端開發時,每次遇到 console 錯誤就要去複製、截圖,再交給 AI 處理,真的蠻麻煩的。我自己在本機環境做測試時,每次有錯誤就打開 DevTools 複製錯誤訊息,再貼到 Claude Code……這樣重複操作過很多次。其實使用 Chrome DevTools MCP 就能搞定所有事情。
Thumbnail
2025/10/08
在前端開發時,每次遇到 console 錯誤就要去複製、截圖,再交給 AI 處理,真的蠻麻煩的。我自己在本機環境做測試時,每次有錯誤就打開 DevTools 複製錯誤訊息,再貼到 Claude Code……這樣重複操作過很多次。其實使用 Chrome DevTools MCP 就能搞定所有事情。
Thumbnail
2025/09/28
1. 前言 對工程師來說,幾乎每天都會用到的「SSH」為什麼能確保安全?本文將一步步帶你了解 SSH 通訊背後的機制。 2. SSH 連線的全貌 先來看 SSH 連線建立的整體流程。從客戶端發出連線請求,到最終開始安全的加密通訊,中間其實經過了多個步驟。 (下文會逐步解析圖示中的每個步驟)
2025/09/28
1. 前言 對工程師來說,幾乎每天都會用到的「SSH」為什麼能確保安全?本文將一步步帶你了解 SSH 通訊背後的機制。 2. SSH 連線的全貌 先來看 SSH 連線建立的整體流程。從客戶端發出連線請求,到最終開始安全的加密通訊,中間其實經過了多個步驟。 (下文會逐步解析圖示中的每個步驟)
看更多
你可能也想看
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 77 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 77 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 75 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 75 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
在AI時代中,GPT技術正在改變我們的生活。然而,SLM(小型語言模型)也開始受到關注,具有更高的效率、更低的資源消耗和更快的響應速度。這篇文章將討論LLM和SLM的比較、SLM的應用場景以及未來的發展趨勢。
Thumbnail
在AI時代中,GPT技術正在改變我們的生活。然而,SLM(小型語言模型)也開始受到關注,具有更高的效率、更低的資源消耗和更快的響應速度。這篇文章將討論LLM和SLM的比較、SLM的應用場景以及未來的發展趨勢。
Thumbnail
大型語言模型 (LLM) 在最近幾年取得了重大進展,並引起了人們對生成式AI將如何影響工作方式的廣泛重視。雖然 LLM 具有強大的文本生成、翻譯和理解能力,但它們對工作的影響仍然是一個複雜且充滿爭議的話題。 本文摘要自MIT 史隆管理評論,分析LLM 對工作帶來的影響。
Thumbnail
大型語言模型 (LLM) 在最近幾年取得了重大進展,並引起了人們對生成式AI將如何影響工作方式的廣泛重視。雖然 LLM 具有強大的文本生成、翻譯和理解能力,但它們對工作的影響仍然是一個複雜且充滿爭議的話題。 本文摘要自MIT 史隆管理評論,分析LLM 對工作帶來的影響。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News