大語言模型是一種特殊的神經網路,設計來理解,生成與回應人類的文本。
大語言模型是使用大量文本數據訓練的深度神經網路,其訓練使用的文本數據甚至包括了整個網路公開的文本。
大語言模型的「大」,體現於模型的參數個數以及其使用的訓練數據集。如此大的模型可以有百億甚至千億的參數。這些參數都是神經網路可調整的權重,為了正確預測序列的下一個文字而進行優化。
預測下一個字其實很合理。
這是因為語言本身有內蘊的順序結構,而語言模型學習這個順序結構來理解文本背後的脈絡,結構與關聯。
預測下一個字是一個簡單的任務,
所以大語言模型能夠成為這麼全能的模型非常令人驚喜。
大語言模型使用Transformer架構。
Transfomer架構讓大語言模型在進行預測時,將注意力放在輸入文本的不同區域。
這種可選擇性的注意能力,讓大語言模型能夠處理人類語言的微妙之處與複雜之處。