LLM 006｜BERT與GPT是怎麼從Transformer演化來的？

王啟樺

發佈於LLM 筆記

更新於 2024/04/28發佈於 2024/04/28閱讀時間約 2 分鐘

在上一期「LLM 005｜大語言模型是如何利用Transformer理解語言的？」我們提到，Transformer是大語言模型理解語言的關鍵。

而Transformer架構兩個主要的後代是BERT以及GPT。

BERT是bidirectional encoder representations from transformers的縮寫，直譯為「來自Transformer的雙向編碼器表現」。

GPT是generative pretrained transformers的縮寫，直譯為「生成預訓練 Transformer」。

如此，BERT的T，GPT的T，兩者都是指Transformer。

BERT建構於原始的Transformer的編碼器子模組，

與GPT的訓練方式不同。

有別於GPT是為了生成任務而設計，BERT是為了「遮蔽詞預測 masked word prediction」而設計。

在遮蔽詞預測任務中，語言模型要根據給定的句子，去預測被藏起來的文字。

BERT這種透過遮蔽詞預測來訓練語言模型的策略，使得BERT能夠做「文本分類 Text Classification」的任務。

文本分類任務的例子有情緒分析 Sentiment Prediction與文件分類 Document Categorization。

BERT的這個文本分類能力一個具體應用，就是Twitter拿來偵測有毒的垃圾內容。

另一方面，GPT則聚焦在原始Transformer架構的解碼器部分。

GPT被設計為能解需要產生文本的任務，例如「機器翻譯 Machine Translation」，「文本總結 Text Summarization」，「小說寫作 Fiction Writing」，「寫程式碼 Writing Computer Code」等等。

GPT模型主要被設計與訓練來做「文本補全 Text Completion」工作。

GPT模型擅長「零樣本學習 Zero-Shot Learning」與「少樣本學習 Few-Shot Learning」的任務。

零樣本學習是指，不用任何先前特定範例，就能推廣至完全未見過的任務。

少樣本學習則是指學習的過程需要用戶提供一些範例。

544會員

1.8K內容數

Outline as Content

留言

留言分享你的想法！

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

王啟樺的沙龍的其他內容

LLM 005｜大語言模型是如何利用Transformer理解語言的？

現代大語言模型建構於Transformer結構。 Transformer結構是源自於2017年著名論文 Attention Is All You Need的深度神經網路結構。原始的Trasformer是為了機器翻譯發展，當初的任務是將英文翻譯成德文與法文。 Transformer

#大語言模型 #Transformer #ChatGPT

LLM 004｜創建大語言模型需要哪兩個關鍵階段？

從頭開始寫大語言模型的程式碼，是最好理解大語言模型的機制與限制的方風。從頭開始寫大語言模型的程式碼，可以幫助我們得到預訓練與微調整開源大語言模型架構所需要的知識，並應用到特定領域的數據及以及任務。客製化大語言模型一般來說比起通用大語言模型有更好的表現。一個具體的例子是

#大語言模型 #ChatGPT #Transformer

LLM 003｜人工智慧如何從數據中學習？

大語言模型能夠生成文本，因此被認為是生成式人工智慧的一種形式。人工智慧的學科任務，是製作機器，使其能執行需要人類智慧才能執行的任務，例如理解語言，便是模式，做出決策。除了大語言模型，人工智慧也包含了深度學習以及機器學習。機器學習的學科任務，是透過演算法來實踐AI。特別

#大語言模型 #ChatGPT #人工智慧

LLM 002｜大語言模型中的「大」是如何幫助預測下一個字的？

大語言模型是一種特殊的神經網路，設計來理解，生成與回應人類的文本。大語言模型是使用大量文本數據訓練的深度神經網路，其訓練使用的文本數據甚至包括了整個網路公開的文本。大語言模型的「大」，體現於模型的參數個數以及其使用的訓練數據集。如此大的模型可以有百億甚至千億的參數。這些參數都是神經網

#大語言模型

LLM 001｜大語言模型如何革新傳統的自然語言處理任務？

大語言模型，例如OpenAI提供的ChatGPT，是過去幾年發展的深度神經網路模型，開啟自然語言處理的新紀元。

#大語言模型 #ChatGPT

LLM 005｜大語言模型是如何利用Transformer理解語言的？

#大語言模型 #Transformer #ChatGPT

LLM 004｜創建大語言模型需要哪兩個關鍵階段？

#大語言模型 #ChatGPT #Transformer

LLM 003｜人工智慧如何從數據中學習？

#大語言模型 #ChatGPT #人工智慧

LLM 002｜大語言模型中的「大」是如何幫助預測下一個字的？

#大語言模型

LLM 001｜大語言模型如何革新傳統的自然語言處理任務？

大語言模型，例如OpenAI提供的ChatGPT，是過去幾年發展的深度神經網路模型，開啟自然語言處理的新紀元。

#大語言模型 #ChatGPT

你可能也想看