我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
我們已經在AI說書 - 從0開始 - 20以及AI說書 - 從0開始 - 21中,闡述眾人目前對生成式AI的認知謬誤。
現在我們來談談生成式AI的根基 - Foundation Model,首先要先知道Foundation Model不是由學術界創立的,而是由科技界創立的,例如Google發明Transformer Model,導致後來有Google BERT, LaMBDA, PaLM 2等等,而微軟則與OpenAI結盟研發ChatGPT等等。
目前的 Transformer 模型生態系統與人工智慧的任何其他演化不同,可以概括為四個屬性:
- Model Architecture: 該模型是工業化的。模型的各層是相同的,並且它們是專門為並行處理而設計的。
- Data: 大科技擁有人類史上最龐大的資料來源,主要透過人類驅動的線上活動和互動產生,包括瀏覽習慣、搜尋查詢、社群媒體貼文和線上購買。
- Computing Power: 大型科技公司擁有前所未有的電腦算力。例如,GPT-3 的訓練速度約為 50 PetaFLOPS(每秒浮點運算),而 Google 現在擁有超過 80 PetaFLOPS 的特定領域超級電腦。此外,GPT-4、PaLM 2 和其他LLMs使用數千個 GPU 來訓練其模型。
- Prompt Engineering: Prompt可以觸發訓練有素的Transformer來執行任務。Prompt以自然語言輸入。然而,所使用的單字需要一定的結構,使得Prompt成為一種元語言。
名詞解釋:
- A Foundation Model is thus a transformer model that has been trained on supercomputers on billions of records of data and billions of parameters.
- The fully trained models are often called engines. GPT-4, Google BERT, PaLM 2, and scores of transformer models can now qualify as Foundation Models.