我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
ChatGPT 在 2022 年底和 2023 年初突然成為主流,震驚了世界,數以千計的任務被提交給這個令人難以置信的生成式人工智慧模型,帶有 GPT-4 的 ChatGPT Plus 似乎能夠執行最終用戶提出的任何任務。
然而,OpenAI 不可能對 ChatGPT 進行數千個事先無法猜測的任務的預訓練, OpenAI 也不可能針對最終用戶提出的所有想法微調其 GPT 模型。
可以針對特定任務和確定的下游任務(例如總結)來訓練 Transformer 模型,然而,諸如 ChatGPT 之類的模型可以執行未經訓練的下游任務。
我們在第二章中提到 Multi-Head Attention 包含以下動作:
那這些數學操作,如何變成我們跟 ChatGPT 互動的文字結果呢?