LLM 002|大語言模型中的「大」是如何幫助預測下一個字的?

2024/04/24閱讀時間約 1 分鐘

大語言模型是一種特殊的神經網路,設計來理解,生成與回應人類的文本。


大語言模型是使用大量文本數據訓練的深度神經網路,其訓練使用的文本數據甚至包括了整個網路公開的文本。


大語言模型的「大」,體現於模型的參數個數以及其使用的訓練數據集。如此大的模型可以有百億甚至千億的參數。這些參數都是神經網路可調整的權重,為了正確預測序列的下一個文字而進行優化。


預測下一個字其實很合理。


這是因為語言本身有內蘊的順序結構,而語言模型學習這個順序結構來理解文本背後的脈絡,結構與關聯。


預測下一個字是一個簡單的任務,


所以大語言模型能夠成為這麼全能的模型非常令人驚喜。


大語言模型使用Transformer架構。


Transfomer架構讓大語言模型在進行預測時,將注意力放在輸入文本的不同區域。


這種可選擇性的注意能力,讓大語言模型能夠處理人類語言的微妙之處與複雜之處。


349會員
711內容數
Outline as Content
留言0
查看全部
發表第一個留言支持創作者!