我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
if display_architecture == True:
print(model.config)
結果為:

我們也可以看到 T5 的文字到文字的實現,它在輸入句子中加入前綴來觸發任務執行,此前綴使得可以以文字到文字的格式表示各種任務,而無需修改模型的參數,在我們的例子中,前綴是摘要:

當中的參數意義說明為:
- "early_stopping": true:當模型預測到句子的結尾符號時,文本生成將會停止,這可以優化機器的使用效率
- "length_penalty": 2.0:此參數會影響 Beam Search 的得分,如果值大於 1,模型將傾向於生成較長的序列,如果小於 1,則模型會生成較短的序列
- "max_length": 200 和 "min_length": 30 控制生成的 token 數量,模型至少會生成到達 min_length 的 token,並在達到 max_length 時停止生成
- "no_repeat_ngram_size": 3 控制 ngram token 的重複,該參數設為 3,限制了 3-gram 的重複
- 實現了 Beam Search 演算法,它將擴展四個最重要的文本補全預測
- "num_beams": 4:如果該值設為 1,演算法將採用貪婪策略,意味著它只會尋找一個預測,如果設置為大於 1,Beam 的寬度將擴展,模型會搜尋更多的可能性
- "prefix": "summarize:":定義任務,在此情況下是摘要總結



















