更新於 2024/06/16閱讀時間約 2 分鐘

AI說書 - 從0開始 - 22

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


我們已經在AI說書 - 從0開始 - 20以及AI說書 - 從0開始 - 21中,闡述眾人目前對生成式AI的認知謬誤。


現在我們來談談生成式AI的根基 - Foundation Model,首先要先知道Foundation Model不是由學術界創立的,而是由科技界創立的,例如Google發明Transformer Model,導致後來有Google BERT, LaMBDA, PaLM 2等等,而微軟則與OpenAI結盟研發ChatGPT等等。


目前的 Transformer 模型生態系統與人工智慧的任何其他演化不同,可以概括為四個屬性:

  1. Model Architecture: 該模型是工業化的。模型的各層是相同的,並且它們是專門為並行處理而設計的。
  2. Data: 大科技擁有人類史上最龐大的資料來源,主要透過人類驅動的線上活動和互動產生,包括瀏覽習慣、搜尋查詢、社群媒體貼文和線上購買。
  3. Computing Power: 大型科技公司擁有前所未有的電腦算力。例如,GPT-3 的訓練速度約為 50 PetaFLOPS(每秒浮點運算),而 Google 現在擁有超過 80 PetaFLOPS 的特定領域超級電腦。此外,GPT-4、PaLM 2 和其他LLMs使用數千個 GPU 來訓練其模型。
  4. Prompt Engineering: Prompt可以觸發訓練有素的Transformer來執行任務。Prompt以自然語言輸入。然而,所使用的單字需要一定的結構,使得Prompt成為一種元語言。


名詞解釋:

  1. A Foundation Model is thus a transformer model that has been trained on supercomputers on billions of records of data and billions of parameters.
  2. The fully trained models are often called engines. GPT-4, Google BERT, PaLM 2, and scores of transformer models can now qualify as Foundation Models.



分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.