我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
Raffel 等人於 2019 定義了標準文字到文字 T5 Transformer 模型,他們還走得更遠,他們為打破未經預處理就使用原始資料的神話做出了貢獻,預處理資料可減少訓練時間,例如,Common Crawl 包含透過網路擷取獲得的未標記文字,非文字和標記已從資料集中刪除,然而,Google T5 團隊發現,透過 Common Crawl 取得的大部分文字都沒有達到自然語言或英語的程度,因此他們決定在使用資料集之前需要對其進行清理。
Transformer 成為了語言學習者,而我們成為了他們的老師,但是,為了教導機器學生一門語言,我們必須解釋什麼是正確的英語,在使用資料集之前,我們需要對它們應用一些標準啟發式方法: