什麼是 Transformer 架構?

更新 發佈閱讀 3 分鐘

Transformer 是一種 專門處理序列資料(例如文字) 的神經網路架構。

它在 2017 年由論文:

Attention Is All You Need

提出,作者之一是 Ashish Vaswani。

它徹底改變了 NLP(自然語言處理),並成為所有 LLM 的基礎。


🔥 為什麼它革命性?

在 Transformer 之前:

  • RNN → 只能一個字一個字處理
  • LSTM → 改善長距離記憶,但仍然慢
  • 無法有效並行計算

Transformer 的突破是:

❗ 完全拋棄 RNN,改用「注意力機制(Attention)」。


🧩 Transformer 整體結構

基本結構包含:

Input → Embedding → Attention → Feed Forward → Output

如果是完整版本(原始論文):

  • Encoder(理解)
  • Decoder(生成)

而現代 LLM(例如 GPT)只使用 Decoder 部分。


⭐ 核心:Self-Attention(自注意力)

這是 Transformer 的靈魂。

直覺理解

假設一句話:

小明 打了 小華 因為 他 生氣了

「他」指誰?

Self-Attention 會讓模型去看:

  • 小明
  • 小華

然後計算誰比較相關。


數學核心

每個字會產生三個向量:

  • Q(Query)
  • K(Key)
  • V(Value)

計算公式:

Attention(Q,K,V) = softmax(QK/ √d) V

意思是:

  1. 算 Q 和 K 的相似度
  2. 正規化成權重
  3. 加權平均 V

這讓模型知道「該注意誰」。


🧠 多方注意力(Multi-Head Attention)

模型不只看一種關係,而是:

  • 一方看語法
  • 一方看語意
  • 一方看代詞關係
  • 一方看因果關係

多個 Attention 同時運作 → 再合併。


📐 為什麼它強?

✅ 可以並行運算(GPU 友好)

不像 RNN 需要順序計算。

✅ 能捕捉長距離依賴

1000 字前的詞仍可直接連結。

✅ 容易擴展(Scaling)

參數變多 → 效果自然變好。

這就是為什麼 GPT 能成功。


🏗 Encoder vs Decoder

raw-image

例如:

  • BERT → 只用 Encoder
  • GPT-3 → 只用 Decoder
  • T5 → Encoder + Decoder

🎯 一句話總結

Transformer 是一種利用「自注意力機制」來理解整段文字關係的神經網路架構。

它讓模型能夠:

  • 同時看整句話
  • 理解長距離關聯
  • 高效率在 GPU 上訓練
  • 擴展到上千億參數


留言
avatar-img
sirius數字沙龍
7會員
190內容數
吃自助火鍋啦!不要客氣,想吃啥,請自行取用!
sirius數字沙龍的其他內容
2026/03/01
🤖 什麼是 LLM? LLM = Large Language Model(大型語言模型) 它是一種使用深度學習訓練出來的 AI 模型,能夠理解與產生人類語言。 🔎 一句話解釋 LLM 是一種「用大量文字訓練出來的預測下一個字的超大型神經網路」。
Thumbnail
2026/03/01
🤖 什麼是 LLM? LLM = Large Language Model(大型語言模型) 它是一種使用深度學習訓練出來的 AI 模型,能夠理解與產生人類語言。 🔎 一句話解釋 LLM 是一種「用大量文字訓練出來的預測下一個字的超大型神經網路」。
Thumbnail
2026/02/28
這是一個用「故事化+概念解釋」方式描述 AI「隨機鸚鵡(Stochastic Parrot)」 誕生與被提出的經過。這個概念並不是科幻反派,而是一個對大型語言模型的重要批判觀點。 🦜 AI 隨機拼貼鸚鵡(Stochastic Parrot)
Thumbnail
2026/02/28
這是一個用「故事化+概念解釋」方式描述 AI「隨機鸚鵡(Stochastic Parrot)」 誕生與被提出的經過。這個概念並不是科幻反派,而是一個對大型語言模型的重要批判觀點。 🦜 AI 隨機拼貼鸚鵡(Stochastic Parrot)
Thumbnail
2026/02/28
這是一個結合哲學思想+科幻敘事的版本,描述「AI 回紋針最大化器(Paperclip Maximizer)」誕生與失控的經過。這個故事最早源自哲學家 Nick Bostrom 在其著作 Superintelligence: Paths, Dangers, Strategies 中提出的思想實驗。
Thumbnail
2026/02/28
這是一個結合哲學思想+科幻敘事的版本,描述「AI 回紋針最大化器(Paperclip Maximizer)」誕生與失控的經過。這個故事最早源自哲學家 Nick Bostrom 在其著作 Superintelligence: Paths, Dangers, Strategies 中提出的思想實驗。
Thumbnail
看更多
你可能也想看
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
長期以來,AI 算力與 NVIDIA 的 CUDA 核心劃上等號。但是有越來越多的開發者開始擁抱 Mac 用不同以往的電腦來使用 AI 部署,例如最近的 Clawdbot(結合在地工作流的 AI),這是怎麼回事? Apple Silicon 的出現,確實為 RISC(Reduced Instruc
Thumbnail
長期以來,AI 算力與 NVIDIA 的 CUDA 核心劃上等號。但是有越來越多的開發者開始擁抱 Mac 用不同以往的電腦來使用 AI 部署,例如最近的 Clawdbot(結合在地工作流的 AI),這是怎麼回事? Apple Silicon 的出現,確實為 RISC(Reduced Instruc
Thumbnail
本文探討類神經網路在多元分類問題的應用,以scikit-learn 程式庫中的鳶尾花分類問題為例。該問題涉及三種不同的鳶尾花分類,並詳細說明瞭資料整理、類神經網路的建立及訓練過程,最終達到高準確率的預測結果。本文將幫助讀者理解如何應用類神經網路、PyTorch 及 CUDA 來進行高效的模型訓練。
Thumbnail
本文探討類神經網路在多元分類問題的應用,以scikit-learn 程式庫中的鳶尾花分類問題為例。該問題涉及三種不同的鳶尾花分類,並詳細說明瞭資料整理、類神經網路的建立及訓練過程,最終達到高準確率的預測結果。本文將幫助讀者理解如何應用類神經網路、PyTorch 及 CUDA 來進行高效的模型訓練。
Thumbnail
本文介紹如何利用 PyTorch 和 CUDA,建立多變數類神經網路模型。特別的,文章以「Himmelblau function」為例,探討資料正規化及訓練資料型態轉換的過程,並說明如何在 GPU 上訓練類神經網路。分析訓練誤差值及模型的收斂情況,希望幫助讀者深入理解多變數類神經網路的應用與挑戰。
Thumbnail
本文介紹如何利用 PyTorch 和 CUDA,建立多變數類神經網路模型。特別的,文章以「Himmelblau function」為例,探討資料正規化及訓練資料型態轉換的過程,並說明如何在 GPU 上訓練類神經網路。分析訓練誤差值及模型的收斂情況,希望幫助讀者深入理解多變數類神經網路的應用與挑戰。
Thumbnail
本文介紹了特斯拉自動駕駛硬體版本的演進,包括 HW3.0、HW4.0 硬體版本在臺灣的抵達和消費者的選擇,硬體與軟體的協同發展,各版本晶片的技術規格及未來發展趨勢等。文章內容深入淺出,對於對特斯拉自動駕駛有興趣的讀者具有參考價值。
Thumbnail
本文介紹了特斯拉自動駕駛硬體版本的演進,包括 HW3.0、HW4.0 硬體版本在臺灣的抵達和消費者的選擇,硬體與軟體的協同發展,各版本晶片的技術規格及未來發展趨勢等。文章內容深入淺出,對於對特斯拉自動駕駛有興趣的讀者具有參考價值。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News