我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
原始 Transformer 架構的 Transduction Process 使用編碼器堆疊、解碼器堆疊,而用所有模型參數來表示參考序列,我們將該輸出序列稱為參考。
為什麼不直接說「輸出預測」呢?問題在於沒有單一的輸出預測,Transformer 和人類一樣,會產生我們可以參考的結果,但如果我們以不同的方式訓練它或使用不同的 Transformer 模型,結果可能會改變。
我們立即意識到 Human Transduction 的人類標準,即語言序列的表示,是一個相當大的挑戰,然而,目前已經取得了很大進展。
機器翻譯的評估證明 NLP 已經進步了,為了確定一種解決方案優於另一種解決方案,每個 NLP 挑戰者、實驗室或組織必須參考相同的資料集才能使比較有效。
Vaswani 等人於 2017 介紹了原始 Transformer 模型在 Workshop on Statistical Machine (WMT) 2014 英德翻譯任務和 WMT 2014 英法翻譯任務中所取得的成果,原始 Transformer 取得了最先進的 Bilingual Evaluation Understudy (BLEU) 分數。
我們必須先預處理我們將要檢查的 WMT 資料集,2014 年 WMT 包含多個歐洲語言資料集,它是一個資料集包含來自 Europarl 語料庫第 7 版的資料,我們將使用 1996 - 2011 來自歐洲議會會議記錄平行語料庫的法語-英語資料集,詳見 : https://www.statmt.org/europarl/v7/fr-en.tgz