我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
T5 模型可以總結為「Text-To-Text Transfer Transformer」,因此,每個 NLP 任務都被表述為一個待解決的文本到文本問題,與許多其他模型不同,T5 模型不需要針對特定任務進行微調,每個 NLP 任務的過程都是一個文本到文本的問題,這種靈活的文本到文本方法讓我們開始探討在 T5 模型中使用前綴的方式。
Raffel 等人於 2019 年仍然面臨一個問題需要解決:統一針對特定任務的格式,其想法是找到一種方法,為提交給 Transformer 的每個任務提供一個統一的輸入格式,這樣,模型的參數可以針對所有類型的任務以一個文本到文本的格式進行訓練。
Raffel 等人於 2019 年提出在輸入序列中添加前綴,T5 前綴不僅僅是像某些 Transformer 模型中的 [CLS] 標籤或分類指示符,相反,T5 前綴包含了 Transformer 需要解決的任務的核心,前綴傳達了任務的意義,以下是一些例子: