大語言模型,例如OpenAI提供的ChatGPT,是過去幾年發展的深度神經網路模型,開啟自然語言處理的新紀元。
大語言模型之前,傳統方法在歸類任務,例如垃圾郵件分類,手寫模式辨別等能寫出規則的任務上表現良好。然而解析詳細指示,脈絡分析,構造連貫與脈絡洽當的原創文本等需要複雜理解與推廣能力的任務上,傳統方法就沒辦法了。
實際上,傳統方法無法從一串關鍵字就寫一封郵件,但這個任務對現代的大語言模型是小菜一碟。
大語言模型有很好的能力去理解,生成,詮釋人類語言。
然而,當我們說語言模型「理解」,具體指的是語言模型能夠處理文本,並且產生通順,連貫,脈絡洽當的文本,而不代表他們有像人類一樣的意識或領悟。
大語言模型的能力,是由深度學習的進展而解鎖的。
大語言模型透過大量的文本數據訓練,能比傳統方法更好抓住人類語言的脈絡資訊以及微妙之處。
如此,大語言模型顯著改良的大量自然語言處理任務的表現,包含文本翻譯,情感分析,問答。
此外,大語言模型在各種自然語言處理任務都展現出相當的熟練度,是為特定任務設計的傳統自然語言模型無法企及的。
大語言模型的成功歸因於Transformer架構與大量的訓練數據,使其能夠「編碼」各種語言上的微妙,脈絡,以及表達模式。
透過Transfomer架構與大量數據訓練大語言模型的這個趨勢,從根本改變了自然語言處理這個領域。
大語言模型成為了理解人類語言,與人類語言互動的全能工具。
本書的主要目標,是透過程式碼一步一步在Transformer架構上,實踐項ChatGPT一樣的大語言模型,藉此來理解大語言模型。