Transformer 模型架構

更新於 發佈於 閱讀時間約 6 分鐘

是一種在自然語言處理 (NLP) 領域引起革命性突破的深度學習架構,尤其在處理序列到序列 (Seq2Seq) 的任務上表現出色。它完全依賴於注意力機制(特別是自注意力)來建模序列中元素之間的依賴關係,而不再像傳統的 RNN 那樣依賴於循環結構。

Transformer 模型的主要組成部分:

Transformer 模型主要由以下幾個核心部分組成:

  1. 輸入和輸出嵌入 (Input and Output Embeddings):
    • 首先,輸入序列(例如,一個句子的單詞)會被轉換成詞嵌入(Word Embeddings),將每個詞語表示成一個高維向量。 對於輸出序列(例如,翻譯後的句子),同樣會使用詞嵌入。
  2. 位置編碼 (Positional Encoding):
    • 由於 Transformer 模型沒有像 RNN 那樣的內在順序性,為了讓模型能夠理解序列中詞語的順序信息,需要向輸入和輸出的詞嵌入中加入位置編碼。 位置編碼是一個與詞嵌入維度相同的向量,它為序列中的每個位置都提供一個獨特的表示。
  3. 編碼器 (Encoder):
    • 編碼器由多個相同的層堆疊而成(論文中通常是 6 層)。 每一層都包含兩個主要的子層: 多頭自注意力機制 (Multi-Head Self-Attention): 輸入的嵌入(加上位置編碼)會通過多個並行的自注意力機制,讓模型能夠同時關注輸入序列中不同位置之間的關係。 前饋神經網路 (Position-wise Feed-Forward Network): 自注意力機制的輸出會被送到一個位置前饋神經網路,這個網路對序列中的每個位置獨立地進行相同的非線性變換。 在每個子層之後,都會使用殘差連接 (Residual Connections) 和層歸一化 (Layer Normalization)。殘差連接有助於訓練更深的網路,而層歸一化則可以加速收斂並提高穩定性。
  4. 解碼器 (Decoder):
    • 解碼器也由多個相同的層堆疊而成(層數通常與編碼器相同)。 每一層都包含三個主要的子層: 帶有掩碼的多頭自注意力機制 (Masked Multi-Head Self-Attention): 與編碼器中的自注意力類似,但這裡加入了「掩碼 (masking)」機制,以防止解碼器在預測當前位置的詞語時看到後續的詞語(這在訓練時很重要,因為我們希望模型僅根據已經生成的詞語來預測下一個詞語)。 多頭注意力機制 (Multi-Head Attention): 這個子層接收來自前一個解碼器層的輸出和編碼器的輸出,讓解碼器能夠關注輸入序列中與當前要生成的輸出相關的部分。 前饋神經網路 (Position-wise Feed-Forward Network): 與編碼器中的前饋神經網路相同,對每個位置獨立地進行處理。 同樣地,在每個子層之後也會使用殘差連接和層歸一化。
  5. 線性層和 Softmax 層 (Linear Layer and Softmax Layer):
    • 解碼器的最終輸出會通過一個線性層,將其映射到詞彙表的大小。 然後,應用 Softmax 函數將這些線性層的輸出轉換成概率分布,表示下一個詞語在詞彙表中的可能性。

Transformer 模型的工作流程 (簡化版):

  1. 輸入序列經過詞嵌入和位置編碼。
  2. 編碼器的多個層逐個處理輸入,每一層都進行自注意力和前饋運算,並使用殘差連接和層歸一化。最終,編碼器生成一個表示輸入序列的輸出。
  3. 解碼器也接收輸出序列的嵌入和位置編碼(在訓練時是目標序列,在推理時是已生成的序列)。
  4. 解碼器的每一層都進行帶掩碼的自注意力、對編碼器輸出的注意力以及前饋運算,同樣使用殘差連接和層歸一化。
  5. 解碼器的最終輸出通過線性層和 Softmax 層,生成預測的下一個詞語的概率分布。

Transformer 模型的主要優勢:

  • 並行計算能力強: 由於不依賴於循環結構,Transformer 模型可以並行地處理序列中的所有元素,這大大加快了訓練速度,尤其對於長序列。
  • 捕捉長距離依賴關係: 自注意力機制可以直接計算序列中任意兩個位置之間的依賴關係,有效地解決了傳統 RNN 在處理長序列時遇到的梯度消失和長期依賴問題。
  • 性能優越: Transformer 模型在多個 NLP 任務上都取得了 state-of-the-art 的成果,例如機器翻譯、文本摘要、文本生成等。

Transformer 模型的一些變體和應用:

Transformer 模型是許多現代 NLP 模型(例如 BERT、GPT、RoBERTa、T5 等)的基礎架構,它們在 Transformer 的基礎上進行了各種改進和調整,以適應不同的任務需求。

總之,Transformer 模型架構是一種強大且具有開創性的深度學習模型,它通過完全依賴注意力機制,改變了序列數據處理的方式,並在 NLP 領域取得了巨大的成功。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
4會員
222內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師
2025/05/24
"自注意力 (Self-Attention)" 是一種特殊的注意力機制,與我們之前討論的注意力機制不同之處在於,它不是讓輸出序列的元素去關注輸入序列的元素,而是讓輸入序列的每個元素都去關注輸入序列中的所有其他元素(包括自身),從而捕捉序列內部不同位置之間的依賴關係。 你可以將自注意力想像成一個句子
2025/05/24
"自注意力 (Self-Attention)" 是一種特殊的注意力機制,與我們之前討論的注意力機制不同之處在於,它不是讓輸出序列的元素去關注輸入序列的元素,而是讓輸入序列的每個元素都去關注輸入序列中的所有其他元素(包括自身),從而捕捉序列內部不同位置之間的依賴關係。 你可以將自注意力想像成一個句子
2025/05/24
這是一個在序列到序列模型 (Seq2Seq) 中非常重要的概念,尤其對於處理長輸入序列來說。它旨在解決基本 Seq2Seq 模型將所有輸入信息壓縮到一個固定長度的上下文向量時可能導致的信息瓶頸問題。 你可以將注意力機制想像成讓解碼器在生成輸出序列的每一個詞語時,能夠「專注」於輸入序列中最相關的部分
2025/05/24
這是一個在序列到序列模型 (Seq2Seq) 中非常重要的概念,尤其對於處理長輸入序列來說。它旨在解決基本 Seq2Seq 模型將所有輸入信息壓縮到一個固定長度的上下文向量時可能導致的信息瓶頸問題。 你可以將注意力機制想像成讓解碼器在生成輸出序列的每一個詞語時,能夠「專注」於輸入序列中最相關的部分
2025/05/24
"序列到序列模型 (Sequence-to-Sequence, Seq2Seq)" 是一種深度學習模型架構,特別設計用於處理輸入和輸出都是序列數據的任務。它的目標是將一個輸入序列轉換成另一個輸出序列,這兩個序列的長度可能不同。 你可以將 Seq2Seq 模型想像成一個翻譯員,它接收一種語言的句子(
2025/05/24
"序列到序列模型 (Sequence-to-Sequence, Seq2Seq)" 是一種深度學習模型架構,特別設計用於處理輸入和輸出都是序列數據的任務。它的目標是將一個輸入序列轉換成另一個輸出序列,這兩個序列的長度可能不同。 你可以將 Seq2Seq 模型想像成一個翻譯員,它接收一種語言的句子(
看更多
你可能也想看
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 127 中提及: Transformer 的關鍵參數為: 原始 Transformer 模型中,左圖的 N = 6 原始 Tran
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 127 中提及: Transformer 的關鍵參數為: 原始 Transformer 模型中,左圖的 N = 6 原始 Tran
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。 現在我們來載入預訓練權重,預訓練的權重包含 Transformer 的智慧
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。 現在我們來載入預訓練權重,預訓練的權重包含 Transformer 的智慧
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 77 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 77 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在AI說書 - 從0開始 - 41中,我們提及 Transformer 的 Encoder 架構如下圖所示,同時我們羅列幾個要點於圖示右邊: 原始 Transform
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在AI說書 - 從0開始 - 41中,我們提及 Transformer 的 Encoder 架構如下圖所示,同時我們羅列幾個要點於圖示右邊: 原始 Transform
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 首先先展示 Transformer 的架構圖: 可以看到架構中不再出現 RNN 、 LSTM 、 CNN 等物件,因為 Recurrence 已被摒棄。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 首先先展示 Transformer 的架構圖: 可以看到架構中不再出現 RNN 、 LSTM 、 CNN 等物件,因為 Recurrence 已被摒棄。
Thumbnail
對於熱衷於語言科技的你, 大語言模型(LLMs)在自然語言處理(NLP)領域的發展無疑是一個革命性的進展。 從傳統的規則系統到基於深度學習的方法, LLMs展現了在理解、生成和翻譯人類語言方面的巨大突破。 這不僅是技術上的飛躍, 更是開啟了新的應用和可能性。 下面將介紹這一變革帶來的三大
Thumbnail
對於熱衷於語言科技的你, 大語言模型(LLMs)在自然語言處理(NLP)領域的發展無疑是一個革命性的進展。 從傳統的規則系統到基於深度學習的方法, LLMs展現了在理解、生成和翻譯人類語言方面的巨大突破。 這不僅是技術上的飛躍, 更是開啟了新的應用和可能性。 下面將介紹這一變革帶來的三大
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News