對比 RNN / CNN / Transformer 的本質差異

更新 發佈閱讀 4 分鐘

我們從「資訊如何流動」與「依賴如何被建模」來對比

RNN / CNN / Transformer 的本質差異


一、RNN(循環神經網路)

代表模型:

LSTM

GRU


🧠 核心思想

時間是主軸,資訊沿時間線傳遞。

每一步的隱藏狀態:

h_t = f(x_t, h_{t-1})

它把「過去」壓縮進一個向量裡。


📈 資訊流動方式

x1 → h1 → h2 → h3 → h4 ...

鏈式傳遞


🔥 本質特性

  • 有明確時間順序
  • 記憶透過狀態壓縮
  • 長距離依賴會衰減(梯度消失)
  • 無法並行(必須一步一步算)

🎯 優點

  • 天然適合時間序列
  • 參數較少

⚠ 缺點

  • 記憶有限
  • 難以捕捉長距離關係
  • 訓練慢

二、CNN(卷積神經網路)

代表模型:

LeNet

ResNet


🧠 核心思想

局部模式可重複出現,用濾波器掃描整個空間。

卷積操作:

局部視窗 × 權重矩陣

📈 資訊流動方式

局部區域 → 特徵圖 → 更高階特徵

它假設:

世界是「局部結構」堆疊出來的。


🔥 本質特性

  • 局部感受野(local receptive field)
  • 權重共享(translation invariant)
  • 階層式特徵抽象
  • 高度並行

🎯 優點

  • 影像效果極佳
  • 計算效率高
  • 參數共享節省資源

⚠ 缺點

  • 難以捕捉全域依賴
  • 序列建模能力有限

三、Transformer

提出論文:

Attention Is All You Need


🧠 核心思想

任何位置都可以直接關注任何位置。

不靠時間傳遞,也不靠局部掃描。

而是直接計算:

所有 token 彼此的關聯

📈 資訊流動方式

每個詞 ↔ 所有詞(全連接)

全局圖結構


🔥 本質特性

  • 全域依賴建模
  • 完全並行
  • 計算複雜度 O(n²)
  • 可大規模擴展

四、三者本質對比(核心差異)

raw-image

五、用一個比喻理解

想像在分析一本小說:

RNN

像一個人從第一頁讀到最後一頁,

只能靠「記憶力」記住前面內容。


CNN

像拿放大鏡看局部段落,

透過重複觀察局部模式理解整體。


Transformer

像開了一個會議室,

讓書中所有角色同時互相對話, 動態決定誰影響誰。


六、為什麼 Transformer 統治世界?

因為語言本質是:

遠距離依賴 + 複雜關聯網絡

而 Transformer 本質上就是:

一個可學習的全連接關聯圖。


七、從數學角度看本質差異

  • RNN = 動態系統(state machine)
  • CNN = 卷積算子(平移不變線性算子)
  • Transformer = 自適應加權圖運算

八、更深一層(你可能會喜歡的哲學角度)

RNN 是「時間哲學」

CNN 是「空間哲學」

Transformer 是「關係哲學」

它不再問:

過去是什麼?

而是問:

誰與誰相關?



留言
avatar-img
sirius數字沙龍
7會員
190內容數
吃自助火鍋啦!不要客氣,想吃啥,請自行取用!
sirius數字沙龍的其他內容
2026/03/01
Transformer 是一種 專門處理序列資料(例如文字) 的神經網路架構。 它在 2017 年由論文: Attention Is All You Need 提出,作者之一是 Ashish Vaswani。 它徹底改變了 NLP(自然語言處理),並成為所有 LLM 的基礎。
Thumbnail
2026/03/01
Transformer 是一種 專門處理序列資料(例如文字) 的神經網路架構。 它在 2017 年由論文: Attention Is All You Need 提出,作者之一是 Ashish Vaswani。 它徹底改變了 NLP(自然語言處理),並成為所有 LLM 的基礎。
Thumbnail
2026/03/01
🤖 什麼是 LLM? LLM = Large Language Model(大型語言模型) 它是一種使用深度學習訓練出來的 AI 模型,能夠理解與產生人類語言。 🔎 一句話解釋 LLM 是一種「用大量文字訓練出來的預測下一個字的超大型神經網路」。
Thumbnail
2026/03/01
🤖 什麼是 LLM? LLM = Large Language Model(大型語言模型) 它是一種使用深度學習訓練出來的 AI 模型,能夠理解與產生人類語言。 🔎 一句話解釋 LLM 是一種「用大量文字訓練出來的預測下一個字的超大型神經網路」。
Thumbnail
2026/02/28
這是一個用「故事化+概念解釋」方式描述 AI「隨機鸚鵡(Stochastic Parrot)」 誕生與被提出的經過。這個概念並不是科幻反派,而是一個對大型語言模型的重要批判觀點。 🦜 AI 隨機拼貼鸚鵡(Stochastic Parrot)
Thumbnail
2026/02/28
這是一個用「故事化+概念解釋」方式描述 AI「隨機鸚鵡(Stochastic Parrot)」 誕生與被提出的經過。這個概念並不是科幻反派,而是一個對大型語言模型的重要批判觀點。 🦜 AI 隨機拼貼鸚鵡(Stochastic Parrot)
Thumbnail
看更多
你可能也想看
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
本書介紹了創傷大腦如何運作 然後如何重塑療癒 作者表示大腦是由下而上發展的神經序列模型 底層(腦幹 中腦):  負責調節體溫心跳 壓力反應(生存) 中層(邊緣系統):  負責情緒與關係連結 高層(大腦皮質):  負責理智 語言 邏輯等 循序處理法則 所有感官輸入會先進
Thumbnail
本書介紹了創傷大腦如何運作 然後如何重塑療癒 作者表示大腦是由下而上發展的神經序列模型 底層(腦幹 中腦):  負責調節體溫心跳 壓力反應(生存) 中層(邊緣系統):  負責情緒與關係連結 高層(大腦皮質):  負責理智 語言 邏輯等 循序處理法則 所有感官輸入會先進
Thumbnail
加州大學河濱分校打造全球首個「完全合成」的大腦組織模型,使用 PEG 多孔材料重建類大腦微環境,不需動物來源基質。細胞能在支架中生長並形成神經網路,可用於研究腦傷、阿茲海默症與神經藥物測試。模型更可控、批次更一致,有望成為新一代動物實驗替代工具。
Thumbnail
加州大學河濱分校打造全球首個「完全合成」的大腦組織模型,使用 PEG 多孔材料重建類大腦微環境,不需動物來源基質。細胞能在支架中生長並形成神經網路,可用於研究腦傷、阿茲海默症與神經藥物測試。模型更可控、批次更一致,有望成為新一代動物實驗替代工具。
Thumbnail
本文介紹如何使用 PyTorch 建立一個三層式反饋類神經網路模型來預測股價。文章涵蓋了資料取得 、資料預處理 (正規化)、GPU 資料轉換、模型訓練、模型預測以及結果評估等步驟。透過將模型預測結果與原始股價資料繪製比較圖表,並結合統計指標例如「95%區間」來分析模型的準確性和可靠性。
Thumbnail
本文介紹如何使用 PyTorch 建立一個三層式反饋類神經網路模型來預測股價。文章涵蓋了資料取得 、資料預處理 (正規化)、GPU 資料轉換、模型訓練、模型預測以及結果評估等步驟。透過將模型預測結果與原始股價資料繪製比較圖表,並結合統計指標例如「95%區間」來分析模型的準確性和可靠性。
Thumbnail
在測試中,大規模語言模型的平均正確率達到 81.4%,明顯高於人類專家的 63.4%。更重要的是,經過神經科學專業調適的模型(例如 BrainGPT),表現進一步提升。
Thumbnail
在測試中,大規模語言模型的平均正確率達到 81.4%,明顯高於人類專家的 63.4%。更重要的是,經過神經科學專業調適的模型(例如 BrainGPT),表現進一步提升。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News