Attention is All You Need

更新 發佈閱讀 6 分鐘

2017 年之前,人工智慧(Artificial Intelligence, AI)領域中的語言模型一直陷在記憶的困境裡。從最早期的 n-gram 統計模型(簡單的說就是一句話的下一個字,只和前 n-1 個字有關),到後來廣泛應用的遞歸神經網路(Recurrent Neural Network, RNN)與長短期記憶單元(Long Short-Term Memory, LSTM),這些技術看似推動了自然語言處理(Natural Language Processing, NLP)的進步,實則始終無法真正解決語言理解的關鍵瓶頸。語言模型總是像個健忘的學生,記得眼前的一兩個字,卻總是遺漏了語句前後的深層關聯。

尤其是面對長句或段落時,這些模型表現得力不從心。RNN 雖然透過遞歸結構處理序列資料,理論上具備捕捉前後文的能力,但實際上,記憶會隨著序列長度而衰減,前面輸入的資訊容易在計算過程中被稀釋甚至遺忘。LSTM 作為 RNN 的改良版本,但它仍然需要逐步處理序列,計算無法有效平行化,訓練效率受限。


Attention is All You Need

Transformer 模型,展示編碼器(Encoder)與解碼器(Decoder)堆疊結構。

Transformer 模型,展示編碼器(Encoder)與解碼器(Decoder)堆疊結構。

這樣的技術困境,讓語言模型始終無法真正看見全局,只能在零碎的記憶與有限的上下文中勉強拼湊出語意。直到 2017 年,來自 Google Brain 團隊的一篇論文《Attention is All You Need》,首次提出了 Transformer 架構

  • Transformer 的核心不只是一個模型,而是一整套語言理解的方法論。傳統語言模型依賴記憶的累積與傳遞,Transformer 則是透過注意力機制,同步分析每個詞彙與其他詞彙的關聯,讓語言理解不再被線性順序所限制
  • Transformer 的成功,來自於捨棄複雜結構,回歸簡單而有效的設計。比起遞歸網路層層堆疊,Transformer 把每層拆解成簡單的注意力與前饋網路組合,這讓模型更容易訓練,也更具擴展性
  • Transformer 改變了 AI 模型對位置的看法。傳統模型需要透過結構學習位置資訊,Transformer 則透過位置編碼,讓每個詞彙自帶座標,這不僅保留了語序,也讓模型具備處理更長文本的能力

一些細節:

傳統的語言模型像是接力賽,每個單詞的訊息要一棒一棒往後傳,很容易中途遺漏或失真。而 Transformer 更像是整個團隊圍成一圈,大家同時看著彼此,任何一個位置的資訊都能被直接感知。論文中提出的多頭注意力機制(Multi-Head Attention)進一步突破了單一視角的侷限。就好比一個人同時帶著多副不同功能的眼鏡,有的專看語法結構,有的專看詞意關聯,有的則捕捉長距離依賴,這樣模型就能從多角度、多層次去理解整段文字。

Transformer 架構中的縮放點積注意力(Scaled Dot-Product Attention)設計的查詢(Query)、鍵(Key)、值(Value)三個向量,可以想像成圖書館借書系統:查詢是你想找的主題,鍵是每本書的標籤,值則是書的內容。模型透過計算查詢與所有書的標籤之間的相似度,快速決定該注意哪些資訊,並透過適當的數學縮放,避免計算過程中因數值過大而導致的學習困難。為了補償捨棄遞歸結構後序列順序可能遺失的問題,Transformer 同時引入了位置編碼(Positional Encoding)技術,就像在每個單詞上貼上座標標籤,這樣即便模型不靠遞歸或卷積,也能清楚辨識語序。


AI 生態大洗牌

Transformer 不僅在 NLP 領域橫掃千軍,誕生了像是 BERT(Bidirectional Encoder Representations from Transformers,基於 Transformer 的雙向編碼表示)、GPT(Generative Pre-trained Transformer,生成式預訓練 Transformer)等劃時代模型,更延伸至圖像、音樂、跨模態領域,催生了 Vision Transformer(ViT,視覺 Transformer)、多模態生成模型 Flamingo,以及如今廣泛應用的 GPT-4o 等多模態系統。Transformer 架構,成為新一代 AI 生態系的基礎設計語言。

隨著語言模型規模不斷膨脹,序列長度與運算資源之間的矛盾日益突出。自注意力機制的計算複雜度隨著序列長度呈平方級數(O(n^2))成長,導致處理超長文本時,計算資源與記憶體消耗極為龐大。為了解決這個問題,工程師們提出了 FlashAttention(閃電注意力)、Mixture of Experts(MoE,專家混合機制)、稀疏注意力(Sparse Attention)等一系列優化方案,試圖突破序列長度與計算成本之間的平衡瓶頸。

從捨棄記憶到放大注意力,Transformer 不只是模型設計上的技術突破,更是語言理解邏輯的一次根本重構。它讓 AI 不再像過去那樣,依賴零碎記憶與狹隘視角去猜測語意,而是能夠用全面、即時的觀點,理解人類語言的結構與邏輯。




留言
avatar-img
想想
16會員
220內容數
Hi!歡迎來到想想。我們一起觀察趨勢,理解來龍去脈,聊聊科技如何改變生活。 在快速變動的世界裡,找回思考的節奏。
想想的其他內容
2025/07/03
KrF 開啟 DUV 時代,改變微影技術與半導體生態。
Thumbnail
2025/07/03
KrF 開啟 DUV 時代,改變微影技術與半導體生態。
Thumbnail
2025/07/02
i-line 技術承接 g-line 發展脈絡,透過更短波長與更高解析度,推動半導體製程進入亞微米時代,也確立日本設備商的主導地位。
Thumbnail
2025/07/02
i-line 技術承接 g-line 發展脈絡,透過更短波長與更高解析度,推動半導體製程進入亞微米時代,也確立日本設備商的主導地位。
Thumbnail
2025/07/01
g-line 光源與步進曝光技術共同奠定了微影從接觸印刷邁向精密量產的起點,開啟半導體微縮競賽的第一個工業世代。
Thumbnail
2025/07/01
g-line 光源與步進曝光技術共同奠定了微影從接觸印刷邁向精密量產的起點,開啟半導體微縮競賽的第一個工業世代。
Thumbnail
看更多
你可能也想看
Thumbnail
創作不只是個人戰,在 vocus ,也可以是一場集體冒險、組隊升級。最具代表性的創作者社群「vocus 野格團」,現在有了更強大的新夥伴加入!除了大家熟悉的「官方主題沙龍」,這次我們徵召了 8 位領域各異的「個人主題專家」,將再度嘗試創作的各種可能,和格友們激發出更多未知的火花。
Thumbnail
創作不只是個人戰,在 vocus ,也可以是一場集體冒險、組隊升級。最具代表性的創作者社群「vocus 野格團」,現在有了更強大的新夥伴加入!除了大家熟悉的「官方主題沙龍」,這次我們徵召了 8 位領域各異的「個人主題專家」,將再度嘗試創作的各種可能,和格友們激發出更多未知的火花。
Thumbnail
vocus 最具指標性的創作者社群──「野格團」, 2026 年春季,這支充滿專業、熱情的團隊再次擴編,迎來了 8 位實力堅強的「個人主題專家」新成員 💫💫💫 從投資理財、自我成長、閱讀書評到電影戲劇,他們各自帶著獨特的「創作超能力」準備在格友大廳與大家見面。
Thumbnail
vocus 最具指標性的創作者社群──「野格團」, 2026 年春季,這支充滿專業、熱情的團隊再次擴編,迎來了 8 位實力堅強的「個人主題專家」新成員 💫💫💫 從投資理財、自我成長、閱讀書評到電影戲劇,他們各自帶著獨特的「創作超能力」準備在格友大廳與大家見面。
Thumbnail
科技發達,AI智能也越來越發達。 蠢孩子,我每篇小說的圖片都是用AI製作的唷!!
Thumbnail
科技發達,AI智能也越來越發達。 蠢孩子,我每篇小說的圖片都是用AI製作的唷!!
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 77 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 77 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 75 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 75 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
最新的AI趨勢讓人眼花撩亂,不知要如何開始學習?本文介紹了作者對AI的使用和體驗,以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具,可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心,不停止學習,並提出了對健康生活和開心生活的祝福。
Thumbnail
最新的AI趨勢讓人眼花撩亂,不知要如何開始學習?本文介紹了作者對AI的使用和體驗,以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具,可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心,不停止學習,並提出了對健康生活和開心生活的祝福。
Thumbnail
已經成真的AI生成文字、圖片、音樂、影片,以及接下來更多的AI運用場景,每一項都將對人類社會產生重大的影響:包括抽象的人心、文化、審美、親密關係,以及實質的就業、經濟、生活、生涯規劃等。 本文我會以大量使用、測試AI的經驗,輔以田野調查的經驗,詳細說明AI時代最應該培養的四項能力。
Thumbnail
已經成真的AI生成文字、圖片、音樂、影片,以及接下來更多的AI運用場景,每一項都將對人類社會產生重大的影響:包括抽象的人心、文化、審美、親密關係,以及實質的就業、經濟、生活、生涯規劃等。 本文我會以大量使用、測試AI的經驗,輔以田野調查的經驗,詳細說明AI時代最應該培養的四項能力。
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。
Thumbnail
AI 是人工智能 (Artificial Intelligence) 的縮寫。它指一種模擬、模仿人類智能的技術與系統。主要使機器能夠執行需要人類智慧才能完成的任務。應用於各領域,包括自動駕駛車輛、語音助手、推薦系統、金融分析、醫學診斷、工業自動化等。不僅可提高效率和準確性,還可解決複雜的問題和挑戰。
Thumbnail
AI 是人工智能 (Artificial Intelligence) 的縮寫。它指一種模擬、模仿人類智能的技術與系統。主要使機器能夠執行需要人類智慧才能完成的任務。應用於各領域,包括自動駕駛車輛、語音助手、推薦系統、金融分析、醫學診斷、工業自動化等。不僅可提高效率和準確性,還可解決複雜的問題和挑戰。
Thumbnail
2023年被世人稱做生成式AI世代的元年,各式各樣的AI工具不斷湧現,改變了人們的生活。本文將詳細介紹人工智慧和機器學習的相關知識,以及各種人工智慧和機器學習的實現方法。
Thumbnail
2023年被世人稱做生成式AI世代的元年,各式各樣的AI工具不斷湧現,改變了人們的生活。本文將詳細介紹人工智慧和機器學習的相關知識,以及各種人工智慧和機器學習的實現方法。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News