我們從「資訊如何流動」與「依賴如何被建模」來對比
RNN / CNN / Transformer 的本質差異。
一、RNN(循環神經網路)
代表模型:LSTM
GRU
🧠 核心思想
時間是主軸,資訊沿時間線傳遞。
每一步的隱藏狀態:
h_t = f(x_t, h_{t-1})
它把「過去」壓縮進一個向量裡。
📈 資訊流動方式
x1 → h1 → h2 → h3 → h4 ...
是鏈式傳遞。
🔥 本質特性
- 有明確時間順序
- 記憶透過狀態壓縮
- 長距離依賴會衰減(梯度消失)
- 無法並行(必須一步一步算)
🎯 優點
- 天然適合時間序列
- 參數較少
⚠ 缺點
- 記憶有限
- 難以捕捉長距離關係
- 訓練慢
二、CNN(卷積神經網路)
代表模型:
LeNet
ResNet
🧠 核心思想
局部模式可重複出現,用濾波器掃描整個空間。
卷積操作:
局部視窗 × 權重矩陣📈 資訊流動方式
局部區域 → 特徵圖 → 更高階特徵它假設:
世界是「局部結構」堆疊出來的。
🔥 本質特性
- 局部感受野(local receptive field)
- 權重共享(translation invariant)
- 階層式特徵抽象
- 高度並行
🎯 優點
- 影像效果極佳
- 計算效率高
- 參數共享節省資源
⚠ 缺點
- 難以捕捉全域依賴
- 序列建模能力有限
三、Transformer
提出論文:
Attention Is All You Need
🧠 核心思想
任何位置都可以直接關注任何位置。
不靠時間傳遞,也不靠局部掃描。
而是直接計算:
所有 token 彼此的關聯📈 資訊流動方式
每個詞 ↔ 所有詞(全連接)是全局圖結構。
🔥 本質特性
- 全域依賴建模
- 完全並行
- 計算複雜度 O(n²)
- 可大規模擴展
四、三者本質對比(核心差異)

五、用一個比喻理解
想像在分析一本小說:
RNN
像一個人從第一頁讀到最後一頁,
只能靠「記憶力」記住前面內容。
CNN
像拿放大鏡看局部段落,
透過重複觀察局部模式理解整體。
Transformer
像開了一個會議室,
讓書中所有角色同時互相對話, 動態決定誰影響誰。
六、為什麼 Transformer 統治世界?
因為語言本質是:
遠距離依賴 + 複雜關聯網絡
而 Transformer 本質上就是:
一個可學習的全連接關聯圖。
七、從數學角度看本質差異
- RNN = 動態系統(state machine)
- CNN = 卷積算子(平移不變線性算子)
- Transformer = 自適應加權圖運算
八、更深一層(你可能會喜歡的哲學角度)
RNN 是「時間哲學」
CNN 是「空間哲學」
Transformer 是「關係哲學」
它不再問:
過去是什麼?
而是問:
誰與誰相關?

















