RNN/ LSTM/ Transformer 系列.3

更新 發佈閱讀 10 分鐘

三、轉換器 (Transformer)**

(**註:關於 RNN/ LSTM/ Transformer 系列.1&RNN 說明,請參考以下網址: https://vocus.cc/article/68bf7c99fd897800013126c7)
(**註:關於 RNN/ LSTM/ Transformer 系列.2&LSTM 說明,請參考以下網址: https://vocus.cc/article/68bf7ff0fd897800013204e5)



▷ Transformer 的概念

1.誕生
Transformer 就是為了解決 RNN、LSTM 傳統處理序列關係的模型所遭遇的問題而發明的。**
以自然語言處理 (NLP) 領域來說,一個語句就是一個序列,由於 RNN 和 LSTM 必須token by token 按照次序地處理,導致「規模」與「速度」上都極度受限,尤其是在養成期需要大量數據強力訓練時,這使得模型無法有效地成長。
而Transformer (轉換器)以一種完全「不是」依序處理序列的方式,「注意力」機制,取代「依序」處理序列的方式,以「平行運算」的方式,同時處理序列中的所有 token,從而大幅提升速度。
(**註:在2017 年 Google 團隊提出的 《Attention is All You Need》 論文中,說明只以Transformer 概念的注意力和前饋網路,即可處理序列關係。這意味著完全取代 RNN 結構。)

2.核心:「注意力 (Attention)」機制
如上段所說,RNN與 LSTM 最大的問題是必須 token by token 依序處理序列,這使得長序列的運算效率很低。
Transformer 的「注意力 (Attention)」機制,能夠一次性地、同時處理序列中的所有 token,意即:判斷出每個 token 對其他 token 的重要性。每當經歷一次 Transformer 的注意力,每個 token 便能更新它當下的最新對所有其他 token 的關係;這形同於每個 token 都能自帶最新的上下文。這是如何做到的?

▪︎「注意力」的運作原理
(a) 賦值(賦予 Q、K、V)
在 Transformer 模型中,每一個 token 都會被賦予一個查詢 (Query, Q)、一個鍵 (Key, K)、一個值 (Value, V)

(b) 掃描與更新
網路 (即 Transformer) 將每個 token 的 Q,與句子中所有 token 的 K 進行比對,給予數值。

(c) 給出「注意力分數/Attention Scores」
依據比對結果所得的數值,越高代表兩個 token 的相關性**越強,也代表它們之間需要給予越多的「注意力」。
(**註:每兩個 token的兩個關係都必須計算:「→」&「←」。)

(d) 計算每個 token 的「注意力輸出/Attention Output」**
將注意力分數對所有 token 的 V 進行加權平均;這裡的注意力分數,只用與該 token 相關的注意力分數,與每一個 token 進行加權計算,加權後數值,相加所得即為該 token的注意力輸出。
(**註:亦稱「上下文向量/Context Vector」。)

(e) 賦予每個 token「新向量」
最終,所計算得出的該 token 的注意力輸出,也就是該 token 新的向量,意即:該 token 被賦予了一個新的「包含其他所有單字相關資訊」的向量,這個新向量等同是讓該 token 直接包含了整個序列的上下文資訊,所以能在最終輸出時起到關鍵作用。

→透過(a)-(e)的過程,一個 token 便得到一個新的向量,可以在下一個階段用來運算,協助產出最終輸出。

→舉例:句子「小狗追著貓,但牠跑掉了。」
在注意力的機制中,處理「牠」這個 token 時,會以「牠」的 Q 會去比對句子中所有其他 token 的 K。
「牠」的 Q 和「小狗」的 K 比對結果:得到一個低分
「牠」的 Q 和「貓」的 K 比對結果:得到一個高分
依據以上比對結果,「貓」的 V 將被給予最高權重,從而判斷「牠」與「貓」的關係是:「牠」指涉「貓」。


▷ Transformer 的運作流程

▪︎ 基本架構步驟:
原始輸入 → 位置編碼 → 進入Transformer 隱藏層/區塊 (hidden layer / block) → 最終輸出

Step.1 原始輸入
不像 RNN 和 LSTM 是 token by token 按照次序地處理,Transformer 是將整個序列**一次性地輸入。
(**註:如果是圖片,則是所有區塊一次性輸入。)

Step.2 位置編碼
由於一次性同時輸入,注意力機制沒有 token 的順序,所以每個 token 須先加上「位置編碼」,這是 token 標記「在序列中的位置」的標籤。

Step.3 進入Transformer 隱藏層/區塊 (hidden layer / block)
在 Transformer 區塊,主要以兩個層處理所有資訊:
▪︎ 自我注意力層 (Self-Attention Layer)
作用:計算所有 token 之間的加權組合
說明:這裡就是「注意力」運作的地方,負責計算所有詞元之間的關聯。這是 Transformer 的最關鍵突破。
通過「注意力」的運作**,最終將產生一個包含上下文意義的新向量的 token,這意味著,透過這個過程,讓每個 token 都包含了整個序列最新的上下文資訊。
(**註:「注意力」運作請參考前述。)
▪︎ 前饋網路層 (Feed-Forward Layer)
作用:對每個 token 的表徵做非線性轉換
說明:在這一層,會對每一個 token 在上一層 (i.e.自我注意力層) 產生的新向量(亦說「新表徵」),進行獨立的非線性轉換。
→ Transformer 區塊主要是透過疊加作用,除了是將「自我注意力層」與「前饋網路層」疊加,其實這兩層也都進行了相同的動作,層正規化 (Layer Normalization)&殘差連接 (Residual Connection)。這是另一個疊加。所以整個 bolck結構是:

資訊進入 block ↓
[自我注意力層] 層正規化 → 自我注意力 → 殘差連接↓
[前饋網路層] 層正規化 → 前饋網路 → 殘差連接↓
資訊從 block 出去

Step.4 最終輸出
當所有資訊處理完從block 出來後,便要將其通用格式的向量依照任務的需求轉換,ex人類可以理解的自然語言或是機器可以執行的特定格式,最終輸出。

→→從整個運作流程,我們可以看到 Transformer 的自我注意力 (Self-Attention) 如何在一次計算中讓每個 token 和序列裡所有其他 token 建立關聯。
對比於 RNN/ LSTM「token by token 按照次序地處理」的方式,Transformer 可以一次性全都對齊,這不只可以避免一步一步傳遞訊息所造成的「梯度消失」問題,更從而改善運算速度。


▷ 總結:

1. Transformer 標記了 AI 在自然語言領域的新時代
透過「注意力」機制,Transformer 得以一次性地(平行)處理一段序列中的每一個token,從而更有效地理解長篇文章的上下文,也所以它在翻譯、摘要和問答等任務上表現出色。
這是徹底翻轉了自然語言處理的方式,而落於實際營用場景上,Transformer 模型成為許多大型語言模型的基石。

2. Transformer 從序列到空間的跨越
回歸到 Transformer 的設計邏輯,即可發現Transformer 的核心能力是理解「關係」,無論這個關係是時間上的 (ex語句中的詞元先後順序),或空間上的 (ex圖像中不同像素或區塊的位置)。
因此,Transformer 的應用,便從處理自然語言語句的「序列」關係,延伸到處理電腦圖像視覺領域的「空間」關係。
大略說明 Transformer 處理圖片的方式:將一張圖片分切成小區塊,然後以「序列」來處理小區塊,意即,透過「注意力」機制去處理小區塊在空間上的關係,從而實現了圖像辨識等功能。

3. 新的 (還是根本的?) 難題
儘管業務力超強,但高度急速的發展仍是很快地使 Transformer 難以招架,尤其是當數據越發龐大,「上下文」的限制,始終是一個根本上有待解決的問題:當數據越大(序列越長),每一次的運算成本是隨著量體平方成長;當上下文因為運算不停長大,變得綿延不絕、極其冗長,這不只是挑戰運算速度,更真正的挑戰將會是資源。而在目前主流的幾種解決方案中,Transformer 仍佔有一席之地:持續改造或優化Transformer。
不過不論如何,Transformer 肯定是近年 AI 領域最重大的突破之一。


留言
avatar-img
留言分享你的想法!
avatar-img
不是雞湯,但是又如何
3會員
296內容數
不是雞湯,但 是又如何 不是雞湯,但是 又如何
2025/09/10
二、長短期記憶 (Long Short-Term Memory/ LSTM) ▷ LSTM 的概念 1. LSTM 是為了解決 RNN 的「梯度消失」問題而誕生的。 ▪︎ RNN的問題:隱藏狀態的更新是透過多層非線性函數,梯度的函數會隨著反覆地權重計算而趨近0,導致梯度消失。 ▪︎ 在當時(19
2025/09/10
二、長短期記憶 (Long Short-Term Memory/ LSTM) ▷ LSTM 的概念 1. LSTM 是為了解決 RNN 的「梯度消失」問題而誕生的。 ▪︎ RNN的問題:隱藏狀態的更新是透過多層非線性函數,梯度的函數會隨著反覆地權重計算而趨近0,導致梯度消失。 ▪︎ 在當時(19
2025/09/09
前言: 神經網路模型,有處理圖片這類以「空間關係」數據為主的卷積神經網路 (CNN),也有處理以「時間或順序關係 (i.e. 序列數據/Sequential Data)」數據為主的「循環神經網路(Recurrent Neural Network/ RNN。 這次要一口氣介紹三個都是處理「序列」和
2025/09/09
前言: 神經網路模型,有處理圖片這類以「空間關係」數據為主的卷積神經網路 (CNN),也有處理以「時間或順序關係 (i.e. 序列數據/Sequential Data)」數據為主的「循環神經網路(Recurrent Neural Network/ RNN。 這次要一口氣介紹三個都是處理「序列」和
2025/08/28
「人工智慧 +1」自學 Day8:「生成式對抗網路GANs」(Generative Adversarial Networks) (**非常有趣的概念!) ▷概念:什麼是 GANs? ▪︎ 定義 GANs 本質上就是一個由兩個神經網路模型「生成器(Generator)」與「判別器(Discrimi
2025/08/28
「人工智慧 +1」自學 Day8:「生成式對抗網路GANs」(Generative Adversarial Networks) (**非常有趣的概念!) ▷概念:什麼是 GANs? ▪︎ 定義 GANs 本質上就是一個由兩個神經網路模型「生成器(Generator)」與「判別器(Discrimi
看更多
你可能也想看
Thumbnail
透過蝦皮分潤計畫,輕鬆賺取零用金!本文分享5-6月實測心得,包含數據流程、實際收入、平臺優點及注意事項,並推薦高分潤商品,教你如何運用空閒時間創造被動收入。
Thumbnail
透過蝦皮分潤計畫,輕鬆賺取零用金!本文分享5-6月實測心得,包含數據流程、實際收入、平臺優點及注意事項,並推薦高分潤商品,教你如何運用空閒時間創造被動收入。
Thumbnail
單身的人有些會養寵物,而我養植物。畢竟寵物離世會傷心,植物沒養好再接再厲就好了~(笑)
Thumbnail
單身的人有些會養寵物,而我養植物。畢竟寵物離世會傷心,植物沒養好再接再厲就好了~(笑)
Thumbnail
不知你有沒有過這種經驗?衛生紙只剩最後一包、洗衣精倒不出來,或電池突然沒電。這次一次補貨,從電池、衛生紙到洗衣精,還順便分享使用心得。更棒的是,搭配蝦皮分潤計畫,愛用品不僅自己用得安心,分享給朋友還能賺回饋。立即使用推薦碼 X5Q344E,輕鬆上手,隨時隨地賺取分潤!
Thumbnail
不知你有沒有過這種經驗?衛生紙只剩最後一包、洗衣精倒不出來,或電池突然沒電。這次一次補貨,從電池、衛生紙到洗衣精,還順便分享使用心得。更棒的是,搭配蝦皮分潤計畫,愛用品不僅自己用得安心,分享給朋友還能賺回饋。立即使用推薦碼 X5Q344E,輕鬆上手,隨時隨地賺取分潤!
Thumbnail
身為一個典型的社畜,上班時間被會議、進度、KPI 塞得滿滿,下班後只想要找一個能夠安靜喘口氣的小角落。對我來說,畫畫就是那個屬於自己的小樹洞。無論是胡亂塗鴉,還是慢慢描繪喜歡的插畫人物,那個專注在筆觸和色彩的過程,就像在幫心靈按摩一樣,讓緊繃的神經慢慢鬆開。
Thumbnail
身為一個典型的社畜,上班時間被會議、進度、KPI 塞得滿滿,下班後只想要找一個能夠安靜喘口氣的小角落。對我來說,畫畫就是那個屬於自己的小樹洞。無論是胡亂塗鴉,還是慢慢描繪喜歡的插畫人物,那個專注在筆觸和色彩的過程,就像在幫心靈按摩一樣,讓緊繃的神經慢慢鬆開。
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 77 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 77 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 75 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 75 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
在科技發展的浪潮中,生成式AI無疑是引領未來的關鍵力量。透過深度學習技術,AI系統能夠從大量資料中發掘規律,並創造出全新的內容,無論是文字、圖像、音頻還是視頻,都可以在AI的加持下重新定義。
Thumbnail
在科技發展的浪潮中,生成式AI無疑是引領未來的關鍵力量。透過深度學習技術,AI系統能夠從大量資料中發掘規律,並創造出全新的內容,無論是文字、圖像、音頻還是視頻,都可以在AI的加持下重新定義。
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。
Thumbnail
半導體是AI經濟的基礎!由於半導體生態系很複雜,所以簡單來跟介紹:
Thumbnail
半導體是AI經濟的基礎!由於半導體生態系很複雜,所以簡單來跟介紹:
Thumbnail
在人工智慧(AI)領域中,生成式AI已經成為一個備受關注的分支,它不僅在創造性的工作中展現出強大的能力,還在各個領域中展現出潛在的應用價值。本文將從宏觀的角度出發,深入探討生成式AI的種類、概念、缺點、公司、訓練、發展趨勢以及原理,帶領讀者深入了解這個令人振奮的領域。
Thumbnail
在人工智慧(AI)領域中,生成式AI已經成為一個備受關注的分支,它不僅在創造性的工作中展現出強大的能力,還在各個領域中展現出潛在的應用價值。本文將從宏觀的角度出發,深入探討生成式AI的種類、概念、缺點、公司、訓練、發展趨勢以及原理,帶領讀者深入了解這個令人振奮的領域。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News