我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
Raffel 等人於 2018 年透過定義一個文本到文本(text-to-text)模型,為各種 NLP 任務設計了一個標準輸入,他們在輸入序列中添加了一個前綴,來指示需要解決的 NLP 問題類型,這樣便形成了一個標準的文本到文本格式,於是,Text-To-Text Transfer Transformer(T5)誕生了,這看似簡單的進化使得可以使用相同的模型和超參數來處理各種 NLP 任務,T5 的發明將 Transformer 模型的標準化過程推進了一步。
我們實現了一個可以摘要任意文本的 T5 模型,我們將該模型測試於不屬於現成訓練數據集的文本上,結果相當有趣,但我們也發現了 Transformer 模型的一些限制,正如 Raffel 等人於 2018 年所預測的那樣,接著,我們比較了 T5 和 ChatGPT 用於摘要的方式,這樣做的目的不是為了展示哪個模型更優越,而是為了理解它們之間的差異。
從 AI說書 - 從0開始 - 373 | 第十三章引言 到 AI說書 - 從0開始 - 398 | 使用 ChatGPT 進行文章總結,我們完成書籍:Transformers for Natural Language Processing and Computer Vision, Denis Rothman, 2024 第十三章說明。
以下附上參考項目:
- Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin, 2017, Attention Is All You Need: https://arxiv.org/abs/1706.03762
- Peter Shaw, Jakob Uszkoreit, and Ashish Vaswani, 2018, Self-Attention with Relative Position Representations: https://arxiv.org/abs/1803.02155
- Hugging Face Framework and Resources: https://huggingface.co/
以下附上額外閱讀項目:
- Colin Raffel et al., 2019, Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer: https://arxiv.org/pdf/1910.10683.pdf