我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
本節的目的是比較 T5 和 ChatGPT 的摘要方法,而不是它們的性能,因為性能取決於需要你自行評估的因素:數據集、超參數、項目範疇以及其他項目層級的考量。
T5 的訓練方法是採用「文本到文本」的形式,T5 將每個任務都重新定義為一個文本問題,並添加前綴來引導句子的進展,例如「summarize: The dog was playing in the garden(總結:狗在花園裡玩耍)」。
而 ChatGPT 的訓練方法則是一個完整的方法,任務是預測序列中的下一個 token,摘要將基於文本的上下文,並將指令添加到提示中,然後它生成摘要,以繼續由提示開始的對話序列。
ChatGPT 不需要針對摘要等特定任務的參數設定,儘管它不是專門針對某一任務的模型,它依然是一個完整模型,根據它對語言、上下文及所提供指令的理解來延續序列,反觀 T5 模型則需要 Task-Specific 參數:
