LLM 002｜大語言模型中的「大」是如何幫助預測下一個字的？

更新於 2024/04/24發佈於 2024/04/24閱讀時間約 1 分鐘

大語言模型是一種特殊的神經網路，設計來理解，生成與回應人類的文本。

大語言模型是使用大量文本數據訓練的深度神經網路，其訓練使用的文本數據甚至包括了整個網路公開的文本。

大語言模型的「大」，體現於模型的參數個數以及其使用的訓練數據集。如此大的模型可以有百億甚至千億的參數。這些參數都是神經網路可調整的權重，為了正確預測序列的下一個文字而進行優化。

預測下一個字其實很合理。

這是因為語言本身有內蘊的順序結構，而語言模型學習這個順序結構來理解文本背後的脈絡，結構與關聯。

預測下一個字是一個簡單的任務，

所以大語言模型能夠成為這麼全能的模型非常令人驚喜。

大語言模型使用Transformer架構。

Transfomer架構讓大語言模型在進行預測時，將注意力放在輸入文本的不同區域。

這種可選擇性的注意能力，讓大語言模型能夠處理人類語言的微妙之處與複雜之處。

王啟樺的沙龍

559會員

1.8K內容數

Outline as Content

留言

留言分享你的想法！

在上一期「LLM 005｜大語言模型是如何利用Transformer理解語言的？」我們提到，Transformer是大語言模型理解語言的關鍵。而Transformer架構兩個主要的後代是BERT以及GPT。 BERT是bidirectional encoder representati

現代大語言模型建構於Transformer結構。 Transformer結構是源自於2017年著名論文 Attention Is All You Need的深度神經網路結構。原始的Trasformer是為了機器翻譯發展，當初的任務是將英文翻譯成德文與法文。 Transformer

從頭開始寫大語言模型的程式碼，是最好理解大語言模型的機制與限制的方風。從頭開始寫大語言模型的程式碼，可以幫助我們得到預訓練與微調整開源大語言模型架構所需要的知識，並應用到特定領域的數據及以及任務。客製化大語言模型一般來說比起通用大語言模型有更好的表現。一個具體的例子是