什麼是 Transformer 架構？

JH Young

發佈於滴咕雞

2026/03/01 更新2026/03/01 發佈閱讀 3 分鐘

Transformer 是一種 專門處理序列資料（例如文字） 的神經網路架構。

它在 2017 年由論文：

Attention Is All You Need

提出，作者之一是 Ashish Vaswani。

它徹底改變了 NLP（自然語言處理），並成為所有 LLM 的基礎。

🔥 為什麼它革命性？

在 Transformer 之前：

RNN → 只能一個字一個字處理
LSTM → 改善長距離記憶，但仍然慢
無法有效並行計算

Transformer 的突破是：

❗ 完全拋棄 RNN，改用「注意力機制（Attention）」。

🧩 Transformer 整體結構

基本結構包含：

Input → Embedding → Attention → Feed Forward → Output

如果是完整版本（原始論文）：

Encoder（理解）
Decoder（生成）

而現代 LLM（例如 GPT）只使用 Decoder 部分。

⭐ 核心：Self-Attention（自注意力）

這是 Transformer 的靈魂。

直覺理解

假設一句話：

小明打了小華因為他生氣了

「他」指誰？

Self-Attention 會讓模型去看：

小明
小華

然後計算誰比較相關。

數學核心

每個字會產生三個向量：

Q（Query）
K（Key）
V（Value）

計算公式：

Attention(Q,K,V) = softmax(QKᵀ / √d) V

意思是：

算 Q 和 K 的相似度
正規化成權重
加權平均 V

這讓模型知道「該注意誰」。

🧠 多方注意力（Multi-Head Attention）

模型不只看一種關係，而是：

一方看語法
一方看語意
一方看代詞關係
一方看因果關係

多個 Attention 同時運作 → 再合併。

📐 為什麼它強？

✅ 可以並行運算（GPU 友好）

不像 RNN 需要順序計算。

✅ 能捕捉長距離依賴

1000 字前的詞仍可直接連結。

✅ 容易擴展（Scaling）

參數變多 → 效果自然變好。

這就是為什麼 GPT 能成功。

🏗 Encoder vs Decoder

例如：

BERT → 只用 Encoder
GPT-3 → 只用 Decoder
T5 → Encoder + Decoder

🎯 一句話總結

Transformer 是一種利用「自注意力機制」來理解整段文字關係的神經網路架構。

它讓模型能夠：

同時看整句話
理解長距離關聯
高效率在 GPU 上訓練
擴展到上千億參數

留言

sirius數字沙龍

7會員

190內容數

吃自助火鍋啦！不要客氣，想吃啥，請自行取用！

sirius數字沙龍的其他內容

2026/03/01

甚麼是LLM？

🤖 什麼是 LLM？ LLM = Large Language Model（大型語言模型）它是一種使用深度學習訓練出來的 AI 模型，能夠理解與產生人類語言。 🔎 一句話解釋 LLM 是一種「用大量文字訓練出來的預測下一個字的超大型神經網路」。

2026/03/01

甚麼是LLM？

2026/02/28

AI 隨機拼貼出的鸚鵡

這是一個用「故事化＋概念解釋」方式描述 AI「隨機鸚鵡（Stochastic Parrot）」誕生與被提出的經過。這個概念並不是科幻反派，而是一個對大型語言模型的重要批判觀點。 🦜 AI 隨機拼貼鸚鵡（Stochastic Parrot）

2026/02/28

AI 隨機拼貼出的鸚鵡

2026/02/28

創造一個 AI Paperclip Maximizer（回紋針最大化器）

這是一個結合哲學思想＋科幻敘事的版本，描述「AI 回紋針最大化器（Paperclip Maximizer）」誕生與失控的經過。這個故事最早源自哲學家 Nick Bostrom 在其著作 Superintelligence: Paths, Dangers, Strategies 中提出的思想實驗。

2026/02/28

創造一個 AI Paperclip Maximizer（回紋針最大化器）

看更多

你可能也想看

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品，以十段寓言式殘篇，重新拼貼記憶、暴力與美學，並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇：帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略，嘗試解析極權底下不可言說之事，將如何成為可被觀看的公共發聲。

#釀電影#釀評論#藝術評論

2026/01/14

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

#釀電影#釀評論#藝術評論

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

柏林劇團在 2026 北藝嚴選，再次帶來由布萊希特改編的經典劇目《三便士歌劇》（The Threepenny Opera），導演巴里・柯斯基以舞台結構與舞台調度，重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核，藉由沉浸與疏離的辯證，解析此作如何再次照見觀眾自身的位置。

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲．蓋柏樂》的詮釋，從劇本歷史、聲響與舞臺設計，到演員的主體創作方法，探討此版本如何讓經典劇作在當代劇場語境下煥發新生，滿足現代觀眾的觀看慾望。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

涵柳的沙龍

《轉轉生 Re:INCARNATION》：從身體與服裝看見奈及利亞的重生

《轉轉生》為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，融合舞蹈、音樂、時尚和視覺藝術，透過身體、服裝與群舞結構，回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發，分析《轉轉生》如何以當代目光，形塑去殖民視角的奈及利亞歷史。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14