第二部:《深度學習》57/100Encoder-Decoder 架構 ✉️ 編碼與解碼的完美協作!

更新 發佈閱讀 8 分鐘

AI時代系列(2) 機器學習三部曲: 🔹 第二部:《深度學習 —— 神經網路的革命》

57/100 第六週:📌 轉換器架構與注意力機制(Transformers & Attention)🔍

57.Encoder-Decoder 架構 ✉️ 編碼與解碼的完美協作!

________________________________________

🎯 單元導讀:

在機器翻譯、摘要生成、問答系統等任務中,模型面臨的挑戰是:

如何將輸入語句「理解並轉換」為另一種形式?

這正是 Encoder-Decoder 架構誕生的初衷:

Encoder 負責「理解」輸入內容,Decoder 負責「生成」對應輸出。

本課將帶你理解這對神經網路搭檔如何協作完成複雜的序列轉換任務,並揭開 Transformer 架構中 Encoder-Decoder 的關鍵互動機制。

________________________________________

🧱 一、Encoder-Decoder 架構總覽


輸入序列(X) → [ Encoder ]

中間表示(語意向量)

輸出序列(Y) ← [ Decoder ]

功能分工:

模組 任務功能

✉️ Encoder 將輸入語句轉換為高階語意向量

📨 Decoder 根據語意向量與先前輸出生成新詞彙

Transformer 模型的核心流程是透過 編碼器(Encoder) 與 解碼器(Decoder) 的合作:輸入序列 X 會先進入 Encoder,轉換成一組包含上下文語意的中間向量表示;

這些向量再被傳遞給 Decoder,作為解碼依據,結合已生成的輸出序列 Y,逐步預測接下來的詞。這種架構讓模型能全面理解輸入內容,並在生成輸出時考慮整體語意與結構,是機器翻譯、摘要與問答等任務的基礎。

________________________________________

🔁 二、運作流程說明(以翻譯任務為例)

輸入句子(英文):"The cat sat on the mat."

1. Encoder:

o 將每個詞轉為詞嵌入向量

o 通過多層 Self-Attention + Feed Forward,捕捉全句語意

o 最後輸出:每個位置的語意表示(不是壓縮成單一向量,而是「語境表示矩陣」)

2. Decoder:

o 在訓練階段輸入已知的「前一個詞」(例如 "Le")

o 使用 Masked Self-Attention:避免看到未來詞

o 使用 Encoder-Decoder Attention:從 Encoder 輸出的語意表示中取得關聯資訊

o 輸出下一個法文字「chat」

3. 如此重複,直到產出完整句子

________________________________________

🧠 三、核心設計:Encoder-Decoder Attention

Transformer 中的 Encoder-Decoder Attention 是解碼器的核心設計之一,它讓 Decoder 在生成每個詞時,不只是依賴自己先前已輸出的內容(透過 Self-Attention 理解上下文),還能透過 Encoder-Decoder Attention 對 Encoder 輸出的語意向量進行查詢,找出與當前生成位置最相關的輸入詞。

這就像 Decoder 一邊說話、一邊「回頭看」輸入句子中最關鍵的部分,使翻譯或回應更貼切自然,是實現輸入輸出對齊的關鍵機制。

________________________________________

🧩 四、與 RNN Seq2Seq 架構的比較

相較於傳統的 Seq2Seq(RNN)架構,Transformer 的 Encoder-Decoder 設計在多個面向都有突破。RNN 通常將整個輸入序列壓縮成單一向量來表示語意,容易在長句中遺失資訊;而 Transformer 保留每個位置的語境向量,使語意保留更完整。在處理方式上,RNN 必須逐詞處理(串行),而 Transformer 則能同時計算(全並行),大幅提高訓練效率。更重要的是,Transformer 的 Self-Attention 機制讓模型能輕易捕捉長距離依賴,克服了 RNN 隨序列增長記憶衰減的問題,成為現代自然語言處理的主流架構。

________________________________________

🌐 五、典型應用場景

任務類型 說明

🈂️ 機器翻譯 Encoder 理解源語言 → Decoder 輸出目標語言

📝 自動摘要 Encoder 理解長文 → Decoder 精煉生成摘要

🤖 問答系統 Encoder 理解問題與上下文 → Decoder 生成答案

🎨 圖片描述生成 Encoder 使用 CNN 理解圖片 → Decoder 輸出語句

________________________________________

📚 六、小結與啟示:

✅ Encoder-Decoder 架構是「輸入理解 → 輸出生成」任務的標準架構。

✅ 兩者透過 Attention 互動,形成類似「訊息壓縮 → 回應重建」的智慧轉換。

✅ Transformer 中的這個架構取代了 RNN,成為語言模型、新一代 AI 的主力核心。

________________________________________

1️⃣ Decoder 為什麼不能直接看到完整輸出序列?遮罩的意義是什麼?

ANS:

Decoder 在訓練時是根據「已產生的詞」來預測下一個詞,因此不能「偷看」未來的詞。這就是為什麼需要使用遮罩(masking)機制,在 Self-Attention 中阻擋 Decoder 注意未來的輸出,強迫它只能依據目前和過去的詞做預測。這樣的設計能模擬真實生成時的行為,確保訓練與推理過程一致,有助於提升模型泛化能力與語句流暢度。

2️⃣ Encoder-Decoder Attention 在翻譯任務中扮演什麼角色?

ANS:

在翻譯任務中,Encoder-Decoder Attention 的角色就像橋梁,讓 Decoder 能在每一步生成詞彙時,選擇性地關注輸入句子中最相關的詞語。例如,當 Decoder 要產生「他」時,它可以透過這個注意力機制對應到 Encoder 輸入中的「John」。這種對齊功能讓翻譯更準確,也讓模型能靈活處理語序不同的語言。

3️⃣ 如果把 Encoder 換成圖像處理模型,是否還能使用 Decoder 生成描述?

ANS:

可以,這正是圖像描述(Image Captioning)任務中的典型做法。輸入圖像會先透過 CNN 或 Vision Transformer 提取為特徵向量(就像語言中的 Encoder 輸出),然後用文字 Decoder 接收這些向量作為語意資訊,逐步產生描述句子。這證明 Transformer Decoder 是模態無關的生成模組,只要 Encoder 能提供有意義的表示,它就能進行語言生成。



留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
8會員
206內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/09/19
多頭注意力將輸入拆為多組 Q/K/V,讓模型從不同子空間同時學習語法、語意與結構關聯。各頭並行運算再整合,提升表現力與效率。其優勢在於多角度理解序列,是 BERT、GPT 等模型的關鍵核心。
2025/09/19
多頭注意力將輸入拆為多組 Q/K/V,讓模型從不同子空間同時學習語法、語意與結構關聯。各頭並行運算再整合,提升表現力與效率。其優勢在於多角度理解序列,是 BERT、GPT 等模型的關鍵核心。
2025/09/19
Transformer 以 Encoder-Decoder 架構結合多頭注意力、前饋層、殘差與 LayerNorm,實現並行高效訓練。Encoder 提取語意,Decoder 加入跨注意力並遮罩未來詞,支援翻譯、生成等任務,是 BERT、GPT、ViT 的核心骨幹。
2025/09/19
Transformer 以 Encoder-Decoder 架構結合多頭注意力、前饋層、殘差與 LayerNorm,實現並行高效訓練。Encoder 提取語意,Decoder 加入跨注意力並遮罩未來詞,支援翻譯、生成等任務,是 BERT、GPT、ViT 的核心骨幹。
2025/09/19
Transformer 沒有內建順序感,因此需加入位置編碼。Sinusoidal 編碼以數學函數表示位置,具泛化能力;Learnable 編碼透過訓練獲取,靈活但受限長度。位置編碼能讓模型理解語序與結構,是自然語言、圖像與音訊任務成功的關鍵。
2025/09/19
Transformer 沒有內建順序感,因此需加入位置編碼。Sinusoidal 編碼以數學函數表示位置,具泛化能力;Learnable 編碼透過訓練獲取,靈活但受限長度。位置編碼能讓模型理解語序與結構,是自然語言、圖像與音訊任務成功的關鍵。
看更多
你可能也想看
Thumbnail
蝦皮分潤計畫讓我在分享旅遊文章時,也能透過推薦好物累積被動收入,貼補旅行基金。這篇文章,除了介紹計畫的操作亮點與心得,也分享我最常應用的案例:「旅行必備小物 TOP5」,包含行李鎖、免洗內衣褲、分裝瓶、折疊衣架與真空壓縮袋,幫助出國打包更輕鬆。想同時記錄旅行、分享好物又創造額外收入的你,千萬別錯過!
Thumbnail
蝦皮分潤計畫讓我在分享旅遊文章時,也能透過推薦好物累積被動收入,貼補旅行基金。這篇文章,除了介紹計畫的操作亮點與心得,也分享我最常應用的案例:「旅行必備小物 TOP5」,包含行李鎖、免洗內衣褲、分裝瓶、折疊衣架與真空壓縮袋,幫助出國打包更輕鬆。想同時記錄旅行、分享好物又創造額外收入的你,千萬別錯過!
Thumbnail
想增加被動收入?加入蝦皮分潤計畫是輕鬆上手的好方法!本文提供完整教學,包含申請流程、賺取分潤技巧,以及實際使用心得分享,助你輕鬆獲得額外收入。
Thumbnail
想增加被動收入?加入蝦皮分潤計畫是輕鬆上手的好方法!本文提供完整教學,包含申請流程、賺取分潤技巧,以及實際使用心得分享,助你輕鬆獲得額外收入。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 69 的第二章內容,我們拿 Encoder 出來看: 幾點注意如下: BERT 模型使用 M
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 69 的第二章內容,我們拿 Encoder 出來看: 幾點注意如下: BERT 模型使用 M
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 仔細看 AI說書 - 從0開始 - 66 中,Decoder 的 Multi-Head Attention 框框,會發現有一條線空接,其實它是有意義的,之所以空接,是因
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 仔細看 AI說書 - 從0開始 - 66 中,Decoder 的 Multi-Head Attention 框框,會發現有一條線空接,其實它是有意義的,之所以空接,是因
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 講完 Transformer 之 Encoder 架構中的 Embedding 與 Positional Encoding 部分,現在進入 Multi-Head Att
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 講完 Transformer 之 Encoder 架構中的 Embedding 與 Positional Encoding 部分,現在進入 Multi-Head Att
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 再度回到 Transformer 架構中的 Encoder 部分,如下圖所示: 我現在手上有的素材如下: Embedding 訓練方式:AI說書 - 從0開始
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 再度回到 Transformer 架構中的 Encoder 部分,如下圖所示: 我現在手上有的素材如下: Embedding 訓練方式:AI說書 - 從0開始
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - 從0開始 - 41中,提及 Transformer 的 Encoder 架構如下圖所示: 此外我已經在AI說書 - 從0開始 - 42中,
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - 從0開始 - 41中,提及 Transformer 的 Encoder 架構如下圖所示: 此外我已經在AI說書 - 從0開始 - 42中,
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在AI說書 - 從0開始 - 41中,我們提及 Transformer 的 Encoder 架構如下圖所示,同時我們羅列幾個要點於圖示右邊: 原始 Transform
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在AI說書 - 從0開始 - 41中,我們提及 Transformer 的 Encoder 架構如下圖所示,同時我們羅列幾個要點於圖示右邊: 原始 Transform
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼AI說書 - 從0開始 - 39,我們陳述了 Transformer 的全貌,那 Transformer 的 Encoder 部分長怎樣呢,如下所示: 在原始
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼AI說書 - 從0開始 - 39,我們陳述了 Transformer 的全貌,那 Transformer 的 Encoder 部分長怎樣呢,如下所示: 在原始
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News