LLM 筆記

6免費公開

大語言模型學習筆記

全部

全部內容

免費與付費

最新發佈優先

王啟樺

2024/04/28

發佈於LLM 筆記

LLM 006｜BERT與GPT是怎麼從Transformer演化來的？

在上一期「LLM 005｜大語言模型是如何利用Transformer理解語言的？」我們提到，Transformer是大語言模型理解語言的關鍵。而Transformer架構兩個主要的後代是BERT以及GPT。 BERT是bidirectional encoder representati

#大語言模型 #ChatGPT #GPT

王啟樺

2024/04/27

發佈於LLM 筆記

LLM 005｜大語言模型是如何利用Transformer理解語言的？

現代大語言模型建構於Transformer結構。 Transformer結構是源自於2017年著名論文 Attention Is All You Need的深度神經網路結構。原始的Trasformer是為了機器翻譯發展，當初的任務是將英文翻譯成德文與法文。 Transformer

#大語言模型 #Transformer #ChatGPT

王啟樺

2024/04/26

發佈於LLM 筆記

LLM 004｜創建大語言模型需要哪兩個關鍵階段？

從頭開始寫大語言模型的程式碼，是最好理解大語言模型的機制與限制的方風。從頭開始寫大語言模型的程式碼，可以幫助我們得到預訓練與微調整開源大語言模型架構所需要的知識，並應用到特定領域的數據及以及任務。客製化大語言模型一般來說比起通用大語言模型有更好的表現。一個具體的例子是

#大語言模型 #ChatGPT #Transformer

王啟樺

2024/04/25

發佈於LLM 筆記

LLM 003｜人工智慧如何從數據中學習？

大語言模型能夠生成文本，因此被認為是生成式人工智慧的一種形式。人工智慧的學科任務，是製作機器，使其能執行需要人類智慧才能執行的任務，例如理解語言，便是模式，做出決策。除了大語言模型，人工智慧也包含了深度學習以及機器學習。機器學習的學科任務，是透過演算法來實踐AI。特別

#大語言模型 #ChatGPT #人工智慧

狙擊王

2024/04/25

有時候還很依賴ai（看見滿滿的公文）

王啟樺

2024/04/24

發佈於LLM 筆記

LLM 002｜大語言模型中的「大」是如何幫助預測下一個字的？

大語言模型是一種特殊的神經網路，設計來理解，生成與回應人類的文本。大語言模型是使用大量文本數據訓練的深度神經網路，其訓練使用的文本數據甚至包括了整個網路公開的文本。大語言模型的「大」，體現於模型的參數個數以及其使用的訓練數據集。如此大的模型可以有百億甚至千億的參數。這些參數都是神經網

#大語言模型

王啟樺

2024/04/23

發佈於LLM 筆記

LLM 001｜大語言模型如何革新傳統的自然語言處理任務？

大語言模型，例如OpenAI提供的ChatGPT，是過去幾年發展的深度神經網路模型，開啟自然語言處理的新紀元。

#大語言模型 #ChatGPT

普普文創

2024/04/23

有些深奧！

王啟樺

發文者

2024/04/23

普普文創每天學一點！