我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
在 AI說書 - 從0開始 - 194 | 第七章總覽 中提到會用「改進」和「擴散」兩個面向來探討 OpenAI 模型,我們先探討「改進」的部分。
本章的改進重點將放在 OpenAI Transformer 模型的架構上,分別為:
- Decoder Only:第 2 章中所述的原始 Transformer 包含編碼器和解碼器堆疊,第 5 章,透過 BERT 進行微調,介紹了 BERT,一個僅編碼器的堆疊,本章將介紹僅解碼器堆疊,您可能會問自己,什麼數學邏輯或證明導致選擇這些配置,事實上是毫無邏輯,Transformer 模型的開發涉及經驗數據驅動的見解、硬體約束和評估,這解釋了為什麼它們會透過建築師的直覺和創造性思維不斷發展。
- Scale:規模仍然是 Transformer 的關鍵特徵,正如您將在本節中發現的那樣,GPT 模型的大小有所增加,為什麼?目標是捕獲單字和上下文之間的許多依賴關係,根據上下文,一個字可以有多種不同的意思,例如,動詞 eat 看起來很簡單,但我們很快就發現有人可以吃某物,或者某物可以吃,有人可能想吃,不吃,或者也許吃,這個清單幾乎是無窮無盡的!我們可以建立許多參數來表達這些微妙之處,那麼問題就變成了找到正確數量的參數,太多的參數可能成本高昂且無用,參數太少可能會降低準確性,透過反覆試驗可以獲得正確數量的參數。
- Task Generalization:如果一個模型是針對特定任務進行訓練的,那麼它就是特定於某任務的,然而,當面對潛在的數百個任務時,我們無法想像創造數百個特定於任務的模型!這就是 OpenAI GPT 模型等生成式 AI 模型的用武之地,Transformer 已經在龐大的資料集上進行了訓練,透過設計 Prompt 開始句子,其他人或 GPT 將透過產生「回應」來繼續句子。
- New Terminology:隨著最新技術的出現,新名詞不斷出現,例如大型語言模型 (LLM)、生成式人工智慧 (Generative AI) 和基礎模型 (Foundation Models),不要讓自己被這些術語淹沒,就像其他新名詞一樣,要習慣它們以及它們所代表的概念,例如,OpenAI GPT 模型現在擁有數十億個參數來處理自然語言,因此,它們是“大型語言模型”,GPT 模型可以繼續一個句子,這解釋了為什麼它們是生成式 AI 模型,GPT 模型可以處理文字、影像和聲音,我們可以根據他們的能力建立數百個任務,這使它們成為我們可以用來建立其他系統的基礎模型。