我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
這種演進的基本概念在於 Transformer 如何致力於教機器理解語言並以類似人類的方式表達自己,因此,我們已經從訓練模型發展到教導機器語言。
ChatGPT、New Bing、Gemini 和其他終端用戶軟體都可以進行摘要,那為什麼還要使用 T5 呢?因為 Hugging Face 的 T5 可能是你專案的合適解決方案,如我們將會看到的,它具有獨特的特性,例如專門針對摘要任務的參數設置。
Raffel 等人於 2019 年設計了一個基於簡單主張的 Transformer Meta 模型:每個 NLP 問題都可以表示為一個文本到文本的函數,每種類型的 NLP 任務都需要一些文本上下文,來生成某種形式的文本回應。
任何 NLP 任務的文本到文本表示提供了一個獨特的框架來分析 Transformer 的方法論和實踐,其核心思想是讓 Transformer 在訓練和微調階段通過文本到文本的方法進行遷移學習,以掌握語言。
Raffel 等人於 2019 年將這種方法命名為 Text-To-Text Transfer Transformer,這 5 個 T 組成了 T5,一個新模型因此誕生。
我們將從介紹 T5 Transformer 模型的概念和架構開始本章的內容,隨後,我們將使用 Hugging Face 的模型來應用 T5 進行文件摘要,本章中的範例將是法律和醫療領域的文檔,以探索特定領域的摘要,而不僅僅是簡單文本,我們並不是在尋找簡單的 NLP 實現方法,而是為現實生活中的項目做好準備。