現代大語言模型建構於Transformer結構。
Transformer結構是源自於2017年著名論文 Attention Is All You Need的深度神經網路結構。
原始的Trasformer是為了機器翻譯發展,當初的任務是將英文翻譯成德文與法文。
Transformer 包含兩個子模組:編碼器 (Encoder)與解碼器 (Decoder)。
編碼器模組將輸入文本編碼成為一串數值表達或向量,
以捕捉輸入文本中的脈絡資訊。
解碼器模組則將編碼向量轉為輸出文本。
在翻譯任務中,編碼器將源語言的文本編碼為向量,
而解碼器將這些向量解碼生成目標語言的文本。
編碼器與解碼器都有很多層被稱為「自注意力 Self-Attention」的機制互相連結。
自注意力機制是Transformer與大語言模型的核心成分。
自注意力機制讓模型能衡量序列中不同字詞 (Words)或令牌 (Tokens)相對於彼此的重要程度。
自注意力機制讓模型能捕捉輸入數據中的長距離相關性以及脈絡關係,
進而生成連貫且符合語境的輸出文本。