Attention is All You Need

2025/07/09 更新2025/07/03 發佈閱讀 6 分鐘

2017 年之前，人工智慧（Artificial Intelligence, AI）領域中的語言模型一直陷在記憶的困境裡。從最早期的 n-gram 統計模型（簡單的說就是一句話的下一個字，只和前 n-1 個字有關），到後來廣泛應用的遞歸神經網路（Recurrent Neural Network, RNN）與長短期記憶單元（Long Short-Term Memory, LSTM），這些技術看似推動了自然語言處理（Natural Language Processing, NLP）的進步，實則始終無法真正解決語言理解的關鍵瓶頸。語言模型總是像個健忘的學生，記得眼前的一兩個字，卻總是遺漏了語句前後的深層關聯。

尤其是面對長句或段落時，這些模型表現得力不從心。RNN 雖然透過遞歸結構處理序列資料，理論上具備捕捉前後文的能力，但實際上，記憶會隨著序列長度而衰減，前面輸入的資訊容易在計算過程中被稀釋甚至遺忘。LSTM 作為 RNN 的改良版本，但它仍然需要逐步處理序列，計算無法有效平行化，訓練效率受限。

Attention is All You Need

Transformer 模型，展示編碼器（Encoder）與解碼器（Decoder）堆疊結構。

這樣的技術困境，讓語言模型始終無法真正看見全局，只能在零碎的記憶與有限的上下文中勉強拼湊出語意。直到 2017 年，來自 Google Brain 團隊的一篇論文《Attention is All You Need》，首次提出了 Transformer 架構

Transformer 的核心不只是一個模型，而是一整套語言理解的方法論。傳統語言模型依賴記憶的累積與傳遞，Transformer 則是透過注意力機制，同步分析每個詞彙與其他詞彙的關聯，讓語言理解不再被線性順序所限制
Transformer 的成功，來自於捨棄複雜結構，回歸簡單而有效的設計。比起遞歸網路層層堆疊，Transformer 把每層拆解成簡單的注意力與前饋網路組合，這讓模型更容易訓練，也更具擴展性
Transformer 改變了 AI 模型對位置的看法。傳統模型需要透過結構學習位置資訊，Transformer 則透過位置編碼，讓每個詞彙自帶座標，這不僅保留了語序，也讓模型具備處理更長文本的能力

一些細節：

傳統的語言模型像是接力賽，每個單詞的訊息要一棒一棒往後傳，很容易中途遺漏或失真。而 Transformer 更像是整個團隊圍成一圈，大家同時看著彼此，任何一個位置的資訊都能被直接感知。論文中提出的多頭注意力機制（Multi-Head Attention）進一步突破了單一視角的侷限。就好比一個人同時帶著多副不同功能的眼鏡，有的專看語法結構，有的專看詞意關聯，有的則捕捉長距離依賴，這樣模型就能從多角度、多層次去理解整段文字。

Transformer 架構中的縮放點積注意力（Scaled Dot-Product Attention）設計的查詢（Query）、鍵（Key）、值（Value）三個向量，可以想像成圖書館借書系統：查詢是你想找的主題，鍵是每本書的標籤，值則是書的內容。模型透過計算查詢與所有書的標籤之間的相似度，快速決定該注意哪些資訊，並透過適當的數學縮放，避免計算過程中因數值過大而導致的學習困難。為了補償捨棄遞歸結構後序列順序可能遺失的問題，Transformer 同時引入了位置編碼（Positional Encoding）技術，就像在每個單詞上貼上座標標籤，這樣即便模型不靠遞歸或卷積，也能清楚辨識語序。

AI 生態大洗牌

Transformer 不僅在 NLP 領域橫掃千軍，誕生了像是 BERT（Bidirectional Encoder Representations from Transformers，基於 Transformer 的雙向編碼表示）、GPT（Generative Pre-trained Transformer，生成式預訓練 Transformer）等劃時代模型，更延伸至圖像、音樂、跨模態領域，催生了 Vision Transformer（ViT，視覺 Transformer）、多模態生成模型 Flamingo，以及如今廣泛應用的 GPT-4o 等多模態系統。Transformer 架構，成為新一代 AI 生態系的基礎設計語言。

隨著語言模型規模不斷膨脹，序列長度與運算資源之間的矛盾日益突出。自注意力機制的計算複雜度隨著序列長度呈平方級數（O(n^2)）成長，導致處理超長文本時，計算資源與記憶體消耗極為龐大。為了解決這個問題，工程師們提出了 FlashAttention（閃電注意力）、Mixture of Experts（MoE，專家混合機制）、稀疏注意力（Sparse Attention）等一系列優化方案，試圖突破序列長度與計算成本之間的平衡瓶頸。

從捨棄記憶到放大注意力，Transformer 不只是模型設計上的技術突破，更是語言理解邏輯的一次根本重構。它讓 AI 不再像過去那樣，依賴零碎記憶與狹隘視角去猜測語意，而是能夠用全面、即時的觀點，理解人類語言的結構與邏輯。

留言

紡知筆記｜In Context

26會員

238內容數

一份關於科技、商業與世界變化的長期知識筆記。這裡把零散新聞、技術名詞與人物故事放回產業脈絡中理解，整理成看得懂的知識線索，陪你建立自己的理解地圖。

紡知筆記｜In Context的其他內容

2025/07/03

光刻演進 3/ 6｜KrF 深紫外光登場讓製程跨入新世代

KrF 開啟 DUV 時代，改變微影技術與半導體生態。

2025/07/03

光刻演進 3/ 6｜KrF 深紫外光登場讓製程跨入新世代

KrF 開啟 DUV 時代，改變微影技術與半導體生態。

2025/07/02

光刻演進 2/ 6｜i-line 技術推動亞微米突破與日本設備崛起

i-line 技術承接 g-line 發展脈絡，透過更短波長與更高解析度，推動半導體製程進入亞微米時代，也確立日本設備商的主導地位。

2025/07/02

光刻演進 2/ 6｜i-line 技術推動亞微米突破與日本設備崛起

i-line 技術承接 g-line 發展脈絡，透過更短波長與更高解析度，推動半導體製程進入亞微米時代，也確立日本設備商的主導地位。

2025/07/01

光刻演進 1/ 6｜g-line 時代帶動半導體微影量產的起點

g-line 光源與步進曝光技術共同奠定了微影從接觸印刷邁向精密量產的起點，開啟半導體微縮競賽的第一個工業世代。

2025/07/01

光刻演進 1/ 6｜g-line 時代帶動半導體微影量產的起點

g-line 光源與步進曝光技術共同奠定了微影從接觸印刷邁向精密量產的起點，開啟半導體微縮競賽的第一個工業世代。

看更多

#方格新手的其他內容

#方格新手看過來！領取你的「創作島」登島門票

目前共 32169 篇

方格子 vocus 官方沙龍

🏝️ 方格創作島｜創作地圖組 Round 2 任務說明：四個「我的⋯⋯」邀請你寫下生活裡的人事物

你可能也想看

往霧的更深處去──從《白色說書人》看轉型正義，與白色恐怖影視文本

見諸參與鄧伯宸口述，鄧湘庭於〈那個大霧的時代〉記述父親回憶，鄧伯宸因故遭受牽連，而案件核心的三人，在鄧伯宸記憶裡：「成立了成大共產黨，他們製作了五星徽章，印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單，以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿，另外還有手槍子彈十發。」

#釀電影#釀藝評#藝術評論

2026/05/07

釀電影，啜一口電影的美好。

往霧的更深處去──從《白色說書人》看轉型正義，與白色恐怖影視文本

#釀電影#釀藝評#藝術評論

2026/05/07

蠢孩子の小說世界

AI 聽你說圖

科技發達，AI智能也越來越發達。蠢孩子，我每篇小說的圖片都是用AI製作的唷!!

#AI繪圖#AI製圖#圖片

2024/07/08

蠢孩子の小說世界

AI 聽你說圖

科技發達，AI智能也越來越發達。蠢孩子，我每篇小說的圖片都是用AI製作的唷!!

#AI繪圖#AI製圖#圖片

2024/07/08

Miller的投資沙龍

【0620米勒投資日報】每間公司都說有做AI，除了AI之外，還有什麼題目可以留意嗎？

#投資#理財#股票

2024/06/20

Miller的投資沙龍

【0620米勒投資日報】每間公司都說有做AI，除了AI之外，還有什麼題目可以留意嗎？

#投資#理財#股票

2024/06/20

Amily的沙龍

北藝嚴選指南：從兒童藝術節到國際共製，聰明玩家的 75 折選戲術

當時間變少之後，看戲反而變得更加重要——這是在成為母親之後，我第一次誠實地面對這一件事：我沒有那麼多的晚上，可以任性地留給自己了。看戲不再只是「今天有沒有空」，而是牽動整個週末的結構，誰應該照顧孩子，我該在什麼時間回到家，隔天還有沒有精神帶小孩⋯⋯於是，我不得不學會一件以前並不擅長的事：挑選。

#北藝嚴選指南#兒童藝術節#臺北表演藝術中心

2026/04/20

Amily的沙龍

北藝嚴選指南：從兒童藝術節到國際共製，聰明玩家的 75 折選戲術

#北藝嚴選指南#兒童藝術節#臺北表演藝術中心

2026/04/20

Learn AI 不 BI

AI說書 - 從0開始 - 78

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 77 ，我們在給定句子「 Transformers possess surprising emerging features 」的情

#AI#ai#PromptEngineering

2024/07/07

Learn AI 不 BI

AI說書 - 從0開始 - 78

#AI#ai#PromptEngineering

2024/07/07

米奇幻世界

人工智能：未來的新篇章

數位化時代中，人工智能（AI）已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性，並提出負責任地發展和使用AI的思考。

#挑戰#人工智能#責任

2024/03/12

米奇幻世界

人工智能：未來的新篇章

數位化時代中，人工智能（AI）已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性，並提出負責任地發展和使用AI的思考。

#挑戰#人工智能#責任

2024/03/12

方格子 vocus 官方沙龍

🏝️ 方格創作島｜【創作地圖組】全攻略：解鎖靈感，再抽精美家電 ദ്ദി(•̀ ᗜ <)

5 月，方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間，每週都會有新的任務地圖與陪跑計畫，從最簡單的帳號使用、沙龍建立，到帶著你從一句話、一張照片開始，一步一步找到屬於自己的創作節奏。不需要長篇大論，不需要完美的文筆，只需要帶上你今天的日常，就可以出發。征服創作島，抱回靈感與大獎！

#創作#vocus#方格創作島

2026/04/23

方格子 vocus 官方沙龍

🏝️ 方格創作島｜【創作地圖組】全攻略：解鎖靈感，再抽精美家電 ദ്ദി(•̀ ᗜ <)

#創作#vocus#方格創作島

2026/04/23

莎姐的矽谷茶棧

你開始使用AI了嗎？

最新的AI趨勢讓人眼花撩亂，不知要如何開始學習？本文介紹了作者對AI的使用和體驗，以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具，可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心，不停止學習，並提出了對健康生活和開心生活的祝福。

2024/06/14

2024/06/14

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 75 ，我們在給定句子「 Transformers possess surprising emerging features 」的情

#AI#ai#PromptEngineering

2024/07/07

Learn AI 不 BI

AI說書 - 從0開始 - 76

#AI#ai#PromptEngineering

2024/07/07

賴仕涵的思考王國

㊙️AI時代的職場王者特質：樣樣通樣樣鬆

已經成真的AI生成文字、圖片、音樂、影片，以及接下來更多的AI運用場景，每一項都將對人類社會產生重大的影響：包括抽象的人心、文化、審美、親密關係，以及實質的就業、經濟、生活、生涯規劃等。本文我會以大量使用、測試AI的經驗，輔以田野調查的經驗，詳細說明AI時代最應該培養的四項能力。

2024/03/31

2024/03/31

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 76 ，我們在給定句子「 Transformers possess surprising emerging features 」的情

#AI#ai#PromptEngineering

2024/07/07

Learn AI 不 BI

AI說書 - 從0開始 - 77

#AI#ai#PromptEngineering

2024/07/07

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：流動、跨域、變形的「生存之道」

當代名導基里爾．賽勒布倫尼科夫身兼電影、劇場與歌劇導演，其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後，他持續以創作回應專制體制的壓迫。《傳奇：帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析，解構賽勒布倫尼科夫如何利用影劇雙棲的特質，在荒謬世道中尋找藝術的「生存之道」。

#釀電影#釀評論#藝術評論

2026/02/28

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：流動、跨域、變形的「生存之道」

#釀電影#釀評論#藝術評論

2026/02/28

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News