第二部:《深度學習》55/100 Transformer 架構總覽 🏗 多頭注意力 + 前饋層 + 殘差連結!

更新 發佈閱讀 10 分鐘

AI時代系列(2) 機器學習三部曲: 🔹 第二部:《深度學習 —— 神經網路的革命》

55/100 第六週:📌 轉換器架構與注意力機制(Transformers & Attention)🔍

55.Transformer 架構總覽 🏗 多頭注意力 + 前饋層 + 殘差連結!

________________________________________

🎯 單元導讀:

Transformer 是現代語言與多模態 AI 的基礎架構。它徹底取代了 RNN 的時間遞迴處理方式,轉而以注意力為核心,實現高效率、可並行、可深度擴展的架構。

本課將帶你快速總覽 Transformer 的原始 Encoder-Decoder 結構設計,並拆解每個模塊的功能與作用,讓你理解這座語言理解的龐然巨塔,是如何層層堆疊起來的。

________________________________________

🧱 一、Transformer 架構總體結構圖

┌────────────┐

│ Encoder │←←← 輸入序列(帶位置編碼)

└────┬───────┘

┌────────────┐

│ Decoder │←←← 輸出序列(訓練階段為shifted)

└────┬───────┘

預測結果(如下一個詞)

Transformer 是一種編碼-解碼架構,由 Encoder 接收加上位置編碼的輸入序列,提取語意與結構資訊,再由 Decoder 根據已生成的輸出序列(訓練時為向右平移的 shifted 輸入)逐步產生預測結果,如下一個詞。這種架構不依賴時間順序,能同時處理整個序列,大幅提升運算效率與上下文理解能力,是現代自然語言處理的核心模型之一。

________________________________________

🔧 二、Encoder 組件結構(每層都一樣)

每一層 Encoder 包含兩大模塊:

1️⃣ Multi-Head Self-Attention(多頭自注意力)

2️⃣ Position-wise Feed-Forward Network(FFN)

並加上:

LayerNorm(層正規化)

Residual Connection(殘差連結)

________________________________________

🔄 三、Decoder 結構比 Encoder 多了什麼?

Decoder 多了一個模塊:

3️⃣ Encoder-Decoder Attention

它讓 Decoder 能夠「關注」Encoder 的輸出,實現翻譯、摘要等任務中的跨語境理解。

________________________________________

✨ 四、核心模塊拆解解釋

✅ 1. Multi-Head Attention(多頭注意力)

目的: 同時從多個角度捕捉語意關係(如語法、語義、結構)

每一頭都是一組獨立的 Q/K/V 投影

多個注意力結果拼接起來再線性變換輸出

Multi-Head Attention 是 Transformer 中的核心機制,它透過將注意力機制拆成多個「頭」同時運作,讓模型能從不同子空間中學習多樣化的語意關係。每個注意力頭各自計算一組獨立的 Q、K、V,再將所有頭的輸出拼接後通過線性變換整合,從而提升模型捕捉複雜上下文的能力。這種設計讓模型不僅能關注單一關係,而是同時理解語法、語意、位置等多層次關聯。

________________________________________

✅ 2. Feed-Forward Network(前饋全連接層)

非線性轉換 + 特徵提取

有助於提升表示力與模型深度

在 Transformer 中,Feed-Forward Network 是應用於每個位置的獨立子網路,通常由兩層全連接(Linear)層構成,中間搭配非線性激活函數(如 ReLU 或 GELU)。它的作用是在每個詞經過注意力處理後,進一步進行語意轉換與特徵抽取,強化模型對語句內容的理解。前饋層不參與序列順序運算,對每個位置獨立計算,但與注意力層交錯堆疊後,能有效建立複雜的語意表示。

________________________________________

✅ 3. 殘差連結(Residual Connection)+ 層正規化(LayerNorm)

每個 Attention/FFN 模塊外都會加上:

殘差連結(Residual)幫助梯度傳遞與穩定深度訓練

LayerNorm 確保不同維度輸出穩定、有助訓練收斂

在 Transformer 中,每個子層(如注意力機制或前饋網路)外都會加入殘差連結(Residual Connection),即將輸入直接加到子層輸出上,幫助資訊在深層網路中流動、避免梯度消失。接著再進行層正規化(LayerNorm),將每個詞向量的維度正規化,使模型更穩定、收斂更快。這兩者搭配,能讓深層 Transformer 架構在訓練時保持數值穩定並提升學習效果,是穩定學習的關鍵設計。

________________________________________

🧠 五、Transformer 訓練流程概要

1. 將輸入詞轉為詞嵌入(Embedding)並加上位置編碼(Positional Encoding)

2. 多層 Encoder 處理後產生語意表示

3. Decoder 接收先前輸出(訓練時 Shifted)與 Encoder 輸出,生成每個位置的預測

4. 通過線性層 + Softmax,生成詞機率分布

________________________________________

📊 六、Encoder vs Decoder 對照表

Transformer 架構中的 Encoder 與 Decoder 都由多個關鍵組件組成:Self-Attention 在 Encoder 與 Decoder 中皆使用,用以捕捉上下文資訊,其中 Decoder 會加上遮罩以避免關注未來詞;Encoder-Decoder Attention 僅存在於 Decoder,用來對齊輸入與輸出(如翻譯時對應不同語言);Feed-Forward Layer 在兩者中都執行非線性特徵轉換;而每層中搭配的 殘差連結與 LayerNorm,則用來穩定深度訓練流程、提升收斂速度,確保整體模型有效學習。

________________________________________

📚 七、小結與學習啟示

✅ Transformer 透過 多頭注意力 + 前饋網路 + 殘差結構 組成穩固架構

✅ 其全並行、可擴展、模塊化的設計,成為後續 BERT、GPT、ViT 的骨幹

✅ 學會這個架構,是進入 AI 大模型世界的關鍵門檻!

________________________________________

💬 問題挑戰與思考:

1️⃣ 為什麼每個 SubLayer 都需要殘差與 LayerNorm?

ANS:

在深層 Transformer 架構中,每個子層(如 Self-Attention、Feed-Forward)都會加入殘差連結與 LayerNorm,主要是為了提升訓練穩定性與效率。殘差連結可讓梯度直接傳遞,減少梯度消失問題,讓資訊在深層網路中流動更順暢;LayerNorm 則對每個位置的向量做正規化,使輸出數值穩定,有助於模型快速收斂。兩者結合能大幅改善深層模型的表現與可訓練性,是 Transformer 成功的關鍵設計。

________________________________________

2️⃣ Decoder 為何要遮罩未來資訊?這跟訓練任務有何關聯?

ANS:

Decoder 使用遮罩機制(Masked Self-Attention)的目的是防止模型在生成序列時「偷看未來詞」,確保每個詞的預測僅基於已生成的內容。這與訓練任務的自回歸性質密切相關——模型訓練時是逐步預測下一個詞,模擬實際生成過程。若不遮罩未來資訊,模型就可能過度依賴未來詞,造成訓練與推理時行為不一致,進而降低泛化能力與生成品質。

________________________________________

3️⃣ 若你要設計一個語音到文字的模型,Transformer 架構應如何調整?

ANS:

在語音轉文字(ASR)任務中,可使用類似 Encoder-Decoder 的 Transformer 架構,但需針對輸入做調整。語音信號通常先轉換為頻譜圖(如 Mel-spectrogram)作為輸入,再經卷積或線性層壓縮維度,作為 Encoder 輸入。Decoder 部分仍使用文字 Token 序列進行自回歸生成。由於語音具有連續性與時間結構,也可引入相對位置編碼或改良型架構(如 Conformer、Wav2Vec2.0)來提升聲學特徵建模能力。





留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
10會員
274內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/09/19
Transformer 沒有內建順序感,因此需加入位置編碼。Sinusoidal 編碼以數學函數表示位置,具泛化能力;Learnable 編碼透過訓練獲取,靈活但受限長度。位置編碼能讓模型理解語序與結構,是自然語言、圖像與音訊任務成功的關鍵。
2025/09/19
Transformer 沒有內建順序感,因此需加入位置編碼。Sinusoidal 編碼以數學函數表示位置,具泛化能力;Learnable 編碼透過訓練獲取,靈活但受限長度。位置編碼能讓模型理解語序與結構,是自然語言、圖像與音訊任務成功的關鍵。
2025/09/19
Self-Attention 讓句中每個詞同時擔任 Q、K、V,根據上下文動態調整語意表示,能捕捉長距依賴並並行計算。應用於翻譯、對話、圖像字幕生成,提升語境理解與生成品質,是取代 RNN 的核心技術。
2025/09/19
Self-Attention 讓句中每個詞同時擔任 Q、K、V,根據上下文動態調整語意表示,能捕捉長距依賴並並行計算。應用於翻譯、對話、圖像字幕生成,提升語境理解與生成品質,是取代 RNN 的核心技術。
2025/09/19
本單元介紹 Attention 機制原理,透過 Q、K、V 設計讓模型聚焦關鍵資訊並捕捉長距依賴。Self-Attention、Cross-Attention 等類型提升語意理解,位置編碼則補足順序感。Attention 已成為 Transformer、BERT、GPT 等模型的核心技術。
2025/09/19
本單元介紹 Attention 機制原理,透過 Q、K、V 設計讓模型聚焦關鍵資訊並捕捉長距依賴。Self-Attention、Cross-Attention 等類型提升語意理解,位置編碼則補足順序感。Attention 已成為 Transformer、BERT、GPT 等模型的核心技術。
看更多
你可能也想看
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
人工智慧是什麼? 人工智慧(Artificial Intelligence, AI) 簡單來說,就是讓機器模仿人類的思考、學習和決策的能力。它就像是一個聰明的電腦程序,可以執行許多原本需要人類智慧才能完成的工作,例如: 語音辨識: 讓電腦聽懂人類的語言,像是 Siri、Google As
Thumbnail
人工智慧是什麼? 人工智慧(Artificial Intelligence, AI) 簡單來說,就是讓機器模仿人類的思考、學習和決策的能力。它就像是一個聰明的電腦程序,可以執行許多原本需要人類智慧才能完成的工作,例如: 語音辨識: 讓電腦聽懂人類的語言,像是 Siri、Google As
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 77 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 77 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 75 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 75 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。
Thumbnail
AI 是人工智能 (Artificial Intelligence) 的縮寫。它指一種模擬、模仿人類智能的技術與系統。主要使機器能夠執行需要人類智慧才能完成的任務。應用於各領域,包括自動駕駛車輛、語音助手、推薦系統、金融分析、醫學診斷、工業自動化等。不僅可提高效率和準確性,還可解決複雜的問題和挑戰。
Thumbnail
AI 是人工智能 (Artificial Intelligence) 的縮寫。它指一種模擬、模仿人類智能的技術與系統。主要使機器能夠執行需要人類智慧才能完成的任務。應用於各領域,包括自動駕駛車輛、語音助手、推薦系統、金融分析、醫學診斷、工業自動化等。不僅可提高效率和準確性,還可解決複雜的問題和挑戰。
Thumbnail
2023年被世人稱做生成式AI世代的元年,各式各樣的AI工具不斷湧現,改變了人們的生活。本文將詳細介紹人工智慧和機器學習的相關知識,以及各種人工智慧和機器學習的實現方法。
Thumbnail
2023年被世人稱做生成式AI世代的元年,各式各樣的AI工具不斷湧現,改變了人們的生活。本文將詳細介紹人工智慧和機器學習的相關知識,以及各種人工智慧和機器學習的實現方法。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News