我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
然而,OpenAI 不可能對 ChatGPT 進行數千個事先無法猜測的任務的預訓練, OpenAI 也不可能針對最終用戶提出的所有想法微調其 GPT 模型。
可以針對特定任務和確定的下游任務(例如總結)來訓練 Transformer 模型,然而,諸如 ChatGPT 之類的模型可以執行未經訓練的下游任務。
我們在第二章中提到 Multi-Head Attention 包含以下動作:
- 矩陣 Q 與矩陣 K 的相乘,見 AI說書 - 從0開始 - 52
- 矩陣乘法外,尚要除上「根號矩陣後維度」,見 AI說書 - 從0開始 - 53
- 正規化操作,見 AI說書 - 從0開始 - 52
那這些數學操作,如何變成我們跟 ChatGPT 互動的文字結果呢?