第二部：《深度學習》55/100 Transformer 架構總覽 🏗 多頭注意力 + 前饋層 + 殘差連結！

Hansen W

發佈於AI科技機器學習修煉坊

2025/09/19 更新2025/09/19 發佈閱讀 10 分鐘

AI時代系列(2) 機器學習三部曲: 🔹 第二部：《深度學習 —— 神經網路的革命》

55/100 第六週：📌 轉換器架構與注意力機制（Transformers & Attention）🔍

55.Transformer 架構總覽 🏗 多頭注意力 + 前饋層 + 殘差連結！

________________________________________

🎯 單元導讀：

Transformer 是現代語言與多模態 AI 的基礎架構。它徹底取代了 RNN 的時間遞迴處理方式，轉而以注意力為核心，實現高效率、可並行、可深度擴展的架構。

本課將帶你快速總覽 Transformer 的原始 Encoder-Decoder 結構設計，並拆解每個模塊的功能與作用，讓你理解這座語言理解的龐然巨塔，是如何層層堆疊起來的。

________________________________________

🧱 一、Transformer 架構總體結構圖

┌────────────┐

│ Encoder │←←← 輸入序列（帶位置編碼）

└────┬───────┘

↓

┌────────────┐

│ Decoder │←←← 輸出序列（訓練階段為shifted）

└────┬───────┘

↓

預測結果（如下一個詞）

Transformer 是一種編碼－解碼架構，由 Encoder 接收加上位置編碼的輸入序列，提取語意與結構資訊，再由 Decoder 根據已生成的輸出序列（訓練時為向右平移的 shifted 輸入）逐步產生預測結果，如下一個詞。這種架構不依賴時間順序，能同時處理整個序列，大幅提升運算效率與上下文理解能力，是現代自然語言處理的核心模型之一。

________________________________________

🔧 二、Encoder 組件結構（每層都一樣）

每一層 Encoder 包含兩大模塊：

1️⃣ Multi-Head Self-Attention（多頭自注意力）

2️⃣ Position-wise Feed-Forward Network（FFN）

並加上：

• LayerNorm（層正規化）

• Residual Connection（殘差連結）

________________________________________

🔄 三、Decoder 結構比 Encoder 多了什麼？

Decoder 多了一個模塊：

3️⃣ Encoder-Decoder Attention

它讓 Decoder 能夠「關注」Encoder 的輸出，實現翻譯、摘要等任務中的跨語境理解。

________________________________________

✨ 四、核心模塊拆解解釋

✅ 1. Multi-Head Attention（多頭注意力）

• 目的：同時從多個角度捕捉語意關係（如語法、語義、結構）

• 每一頭都是一組獨立的 Q/K/V 投影

• 多個注意力結果拼接起來再線性變換輸出

Multi-Head Attention 是 Transformer 中的核心機制，它透過將注意力機制拆成多個「頭」同時運作，讓模型能從不同子空間中學習多樣化的語意關係。每個注意力頭各自計算一組獨立的 Q、K、V，再將所有頭的輸出拼接後通過線性變換整合，從而提升模型捕捉複雜上下文的能力。這種設計讓模型不僅能關注單一關係，而是同時理解語法、語意、位置等多層次關聯。

________________________________________

✅ 2. Feed-Forward Network（前饋全連接層）

• 非線性轉換 + 特徵提取

• 有助於提升表示力與模型深度

在 Transformer 中，Feed-Forward Network 是應用於每個位置的獨立子網路，通常由兩層全連接（Linear）層構成，中間搭配非線性激活函數（如 ReLU 或 GELU）。它的作用是在每個詞經過注意力處理後，進一步進行語意轉換與特徵抽取，強化模型對語句內容的理解。前饋層不參與序列順序運算，對每個位置獨立計算，但與注意力層交錯堆疊後，能有效建立複雜的語意表示。

________________________________________

✅ 3. 殘差連結（Residual Connection）+ 層正規化（LayerNorm）

• 每個 Attention/FFN 模塊外都會加上：

• 殘差連結（Residual）幫助梯度傳遞與穩定深度訓練

• LayerNorm 確保不同維度輸出穩定、有助訓練收斂

在 Transformer 中，每個子層（如注意力機制或前饋網路）外都會加入殘差連結（Residual Connection），即將輸入直接加到子層輸出上，幫助資訊在深層網路中流動、避免梯度消失。接著再進行層正規化（LayerNorm），將每個詞向量的維度正規化，使模型更穩定、收斂更快。這兩者搭配，能讓深層 Transformer 架構在訓練時保持數值穩定並提升學習效果，是穩定學習的關鍵設計。

________________________________________

🧠 五、Transformer 訓練流程概要

1. 將輸入詞轉為詞嵌入（Embedding）並加上位置編碼（Positional Encoding）

2. 多層 Encoder 處理後產生語意表示

3. Decoder 接收先前輸出（訓練時 Shifted）與 Encoder 輸出，生成每個位置的預測

4. 通過線性層 + Softmax，生成詞機率分布

________________________________________

📊 六、Encoder vs Decoder 對照表

Transformer 架構中的 Encoder 與 Decoder 都由多個關鍵組件組成：Self-Attention 在 Encoder 與 Decoder 中皆使用，用以捕捉上下文資訊，其中 Decoder 會加上遮罩以避免關注未來詞；Encoder-Decoder Attention 僅存在於 Decoder，用來對齊輸入與輸出（如翻譯時對應不同語言）；Feed-Forward Layer 在兩者中都執行非線性特徵轉換；而每層中搭配的殘差連結與 LayerNorm，則用來穩定深度訓練流程、提升收斂速度，確保整體模型有效學習。

________________________________________

📚 七、小結與學習啟示

✅ Transformer 透過多頭注意力 + 前饋網路 + 殘差結構組成穩固架構

✅ 其全並行、可擴展、模塊化的設計，成為後續 BERT、GPT、ViT 的骨幹

✅ 學會這個架構，是進入 AI 大模型世界的關鍵門檻！

________________________________________

💬 問題挑戰與思考：

1️⃣ 為什麼每個 SubLayer 都需要殘差與 LayerNorm？

ANS:

在深層 Transformer 架構中，每個子層（如 Self-Attention、Feed-Forward）都會加入殘差連結與 LayerNorm，主要是為了提升訓練穩定性與效率。殘差連結可讓梯度直接傳遞，減少梯度消失問題，讓資訊在深層網路中流動更順暢；LayerNorm 則對每個位置的向量做正規化，使輸出數值穩定，有助於模型快速收斂。兩者結合能大幅改善深層模型的表現與可訓練性，是 Transformer 成功的關鍵設計。

________________________________________

2️⃣ Decoder 為何要遮罩未來資訊？這跟訓練任務有何關聯？

ANS:

Decoder 使用遮罩機制（Masked Self-Attention）的目的是防止模型在生成序列時「偷看未來詞」，確保每個詞的預測僅基於已生成的內容。這與訓練任務的自回歸性質密切相關——模型訓練時是逐步預測下一個詞，模擬實際生成過程。若不遮罩未來資訊，模型就可能過度依賴未來詞，造成訓練與推理時行為不一致，進而降低泛化能力與生成品質。

________________________________________

3️⃣ 若你要設計一個語音到文字的模型，Transformer 架構應如何調整？

ANS:

在語音轉文字（ASR）任務中，可使用類似 Encoder-Decoder 的 Transformer 架構，但需針對輸入做調整。語音信號通常先轉換為頻譜圖（如 Mel-spectrogram）作為輸入，再經卷積或線性層壓縮維度，作為 Encoder 輸入。Decoder 部分仍使用文字 Token 序列進行自回歸生成。由於語音具有連續性與時間結構，也可引入相對位置編碼或改良型架構（如 Conformer、Wav2Vec2.0）來提升聲學特徵建模能力。

Hansen W的沙龍AI科技機器學習修煉坊

留言

留言分享你的想法！

Hansen W的沙龍

10會員

274內容數

AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台，主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例，更強調理性思維與行動力的結合。無論你是AI初學者、創業者，還是追求人生升維的行者，都能在這裡找到前進的方向與志同道合的夥伴。

Hansen W的沙龍的其他內容

2025/09/19

第二部：《深度學習》54/100 Position Encoding 位置編碼 📏 解決沒有順序感的問題！

Transformer 沒有內建順序感，因此需加入位置編碼。Sinusoidal 編碼以數學函數表示位置，具泛化能力；Learnable 編碼透過訓練獲取，靈活但受限長度。位置編碼能讓模型理解語序與結構，是自然語言、圖像與音訊任務成功的關鍵。

2025/09/19

第二部：《深度學習》54/100 Position Encoding 位置編碼 📏 解決沒有順序感的問題！

2025/09/19

第二部：《深度學習》53/100 Self-Attention 自我注意力機制 🧠 一句話內的詞也能彼此互相理解！

Self-Attention 讓句中每個詞同時擔任 Q、K、V，根據上下文動態調整語意表示，能捕捉長距依賴並並行計算。應用於翻譯、對話、圖像字幕生成，提升語境理解與生成品質，是取代 RNN 的核心技術。

2025/09/19

第二部：《深度學習》53/100 Self-Attention 自我注意力機制 🧠 一句話內的詞也能彼此互相理解！

2025/09/19

第二部：《深度學習》52/100 Attention 機制原理 ✨「注意力」讓模型專注關鍵位置！

本單元介紹 Attention 機制原理，透過 Q、K、V 設計讓模型聚焦關鍵資訊並捕捉長距依賴。Self-Attention、Cross-Attention 等類型提升語意理解，位置編碼則補足順序感。Attention 已成為 Transformer、BERT、GPT 等模型的核心技術。

2025/09/19

第二部：《深度學習》52/100 Attention 機制原理 ✨「注意力」讓模型專注關鍵位置！

看更多

你可能也想看

林的怪東西集中地

人工智慧與機器學習

本文介紹了人工智慧（AI）及機器學習（ML）的基本概念和關係，探討了數據在機器學習中的重要性，以及深度學習和生成式人工智慧的應用。

#學習#人工智慧#數據

2024/07/30

林的怪東西集中地

人工智慧與機器學習

本文介紹了人工智慧（AI）及機器學習（ML）的基本概念和關係，探討了數據在機器學習中的重要性，以及深度學習和生成式人工智慧的應用。

#學習#人工智慧#數據

2024/07/30

普普文創

【文創漫談】人工智慧與機器學習 | 如何利用AI | 增強能力

人工智慧是什麼？人工智慧（Artificial Intelligence, AI）簡單來說，就是讓機器模仿人類的思考、學習和決策的能力。它就像是一個聰明的電腦程序，可以執行許多原本需要人類智慧才能完成的工作，例如：語音辨識：讓電腦聽懂人類的語言，像是 Siri、Google As

#文創漫談#人工智慧與機器學習#如何利用AI

2024/07/30

普普文創

【文創漫談】人工智慧與機器學習 | 如何利用AI | 增強能力

#文創漫談#人工智慧與機器學習#如何利用AI

2024/07/30

Learn AI 不 BI

AI說書 - 從0開始 - 78

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 77 ，我們在給定句子「 Transformers possess surprising emerging features 」的情

#AI#ai#PromptEngineering

2024/07/07

Learn AI 不 BI

AI說書 - 從0開始 - 78

#AI#ai#PromptEngineering

2024/07/07

Learn AI 不 BI

AI說書 - 從0開始 - 77

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 76 ，我們在給定句子「 Transformers possess surprising emerging features 」的情

#AI#ai#PromptEngineering

2024/07/07

Learn AI 不 BI

AI說書 - 從0開始 - 77

#AI#ai#PromptEngineering

2024/07/07

Learn AI 不 BI

AI說書 - 從0開始 - 76

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 75 ，我們在給定句子「 Transformers possess surprising emerging features 」的情

#AI#ai#PromptEngineering

2024/07/07

Learn AI 不 BI

AI說書 - 從0開始 - 76

#AI#ai#PromptEngineering

2024/07/07

米奇幻世界

人工智能：未來的新篇章

數位化時代中，人工智能（AI）已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性，並提出負責任地發展和使用AI的思考。

#挑戰#人工智能#責任

2024/03/12

米奇幻世界

人工智能：未來的新篇章

數位化時代中，人工智能（AI）已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性，並提出負責任地發展和使用AI的思考。

#挑戰#人工智能#責任

2024/03/12

美國人力資源港 - 九思觀點

何謂「人工智能」？What is AI?

AI 是人工智能 (Artificial Intelligence) 的縮寫。它指一種模擬、模仿人類智能的技術與系統。主要使機器能夠執行需要人類智慧才能完成的任務。應用於各領域，包括自動駕駛車輛、語音助手、推薦系統、金融分析、醫學診斷、工業自動化等。不僅可提高效率和準確性，還可解決複雜的問題和挑戰。

#人工智能#機器學習#深度學習

2024/02/23