我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
我們已經在AI說書 - 從0開始 - 18中,介紹了OpenAI的GPT模型如何利用Inference的Pipeline產生Token。
完整Pipeline可能對多數非AI專家而言太過艱深,以下用簡單方式做詮釋,角色分成三種,一個是大型語言模型的Model,一個是Model的輸入,最後一個是Model的輸出,因此完整流程為:
- Model Input = Input Sequence用Tokens表示
- Model Input匯入Model中,並產生一個Next Token
- Output = 稍早產生的Next Token串接於Input Sequence的末端,除非除非Maximum Token數目達到,否則持續此流程
示意圖如下:
資料出自書籍:Transformers for Natural Language Processing and Computer Vision, Denis Rothman, 2024.
用比較數學的方式作呈現的話就是:t = f(n),各自角色為:
- t = Next Token
- f = 大型語言模型,用以,用以Infer產生產生Next Token
- n = the initial sequence of tokens + each new next token that is added to it until the maximum number of tokens is reached or an end-of-sequence token is detected