Transformer 模型架構

2025/08/08 更新2025/05/24 發佈閱讀 6 分鐘

是一種在自然語言處理 (NLP) 領域引起革命性突破的深度學習架構，尤其在處理序列到序列 (Seq2Seq) 的任務上表現出色。它完全依賴於注意力機制（特別是自注意力）來建模序列中元素之間的依賴關係，而不再像傳統的 RNN 那樣依賴於循環結構。

Transformer 模型的主要組成部分：

Transformer 模型主要由以下幾個核心部分組成：

輸入和輸出嵌入 (Input and Output Embeddings):
- 首先，輸入序列（例如，一個句子的單詞）會被轉換成詞嵌入（Word Embeddings），將每個詞語表示成一個高維向量。對於輸出序列（例如，翻譯後的句子），同樣會使用詞嵌入。
位置編碼 (Positional Encoding):
- 由於 Transformer 模型沒有像 RNN 那樣的內在順序性，為了讓模型能夠理解序列中詞語的順序信息，需要向輸入和輸出的詞嵌入中加入位置編碼。位置編碼是一個與詞嵌入維度相同的向量，它為序列中的每個位置都提供一個獨特的表示。
編碼器 (Encoder):
- 編碼器由多個相同的層堆疊而成（論文中通常是 6 層）。每一層都包含兩個主要的子層：多頭自注意力機制 (Multi-Head Self-Attention): 輸入的嵌入（加上位置編碼）會通過多個並行的自注意力機制，讓模型能夠同時關注輸入序列中不同位置之間的關係。前饋神經網路 (Position-wise Feed-Forward Network): 自注意力機制的輸出會被送到一個位置前饋神經網路，這個網路對序列中的每個位置獨立地進行相同的非線性變換。在每個子層之後，都會使用殘差連接 (Residual Connections) 和層歸一化 (Layer Normalization)。殘差連接有助於訓練更深的網路，而層歸一化則可以加速收斂並提高穩定性。
解碼器 (Decoder):
- 解碼器也由多個相同的層堆疊而成（層數通常與編碼器相同）。每一層都包含三個主要的子層：帶有掩碼的多頭自注意力機制 (Masked Multi-Head Self-Attention): 與編碼器中的自注意力類似，但這裡加入了「掩碼 (masking)」機制，以防止解碼器在預測當前位置的詞語時看到後續的詞語（這在訓練時很重要，因為我們希望模型僅根據已經生成的詞語來預測下一個詞語）。多頭注意力機制 (Multi-Head Attention): 這個子層接收來自前一個解碼器層的輸出和編碼器的輸出，讓解碼器能夠關注輸入序列中與當前要生成的輸出相關的部分。前饋神經網路 (Position-wise Feed-Forward Network): 與編碼器中的前饋神經網路相同，對每個位置獨立地進行處理。同樣地，在每個子層之後也會使用殘差連接和層歸一化。
線性層和 Softmax 層 (Linear Layer and Softmax Layer):
- 解碼器的最終輸出會通過一個線性層，將其映射到詞彙表的大小。然後，應用 Softmax 函數將這些線性層的輸出轉換成概率分布，表示下一個詞語在詞彙表中的可能性。