LLM 005｜大語言模型是如何利用Transformer理解語言的？

王啟樺

發佈於LLM 筆記

更新於 2024/04/27發佈於 2024/04/27閱讀時間約 1 分鐘

現代大語言模型建構於Transformer結構。

Transformer結構是源自於2017年著名論文 Attention Is All You Need的深度神經網路結構。

原始的Trasformer是為了機器翻譯發展，當初的任務是將英文翻譯成德文與法文。

Transformer 包含兩個子模組：編碼器 (Encoder)與解碼器 (Decoder)。

編碼器模組將輸入文本編碼成為一串數值表達或向量，

以捕捉輸入文本中的脈絡資訊。

解碼器模組則將編碼向量轉為輸出文本。

在翻譯任務中，編碼器將源語言的文本編碼為向量，

而解碼器將這些向量解碼生成目標語言的文本。

編碼器與解碼器都有很多層被稱為「自注意力 Self-Attention」的機制互相連結。

自注意力機制是Transformer與大語言模型的核心成分。

自注意力機制讓模型能衡量序列中不同字詞 (Words)或令牌 (Tokens)相對於彼此的重要程度。

自注意力機制讓模型能捕捉輸入數據中的長距離相關性以及脈絡關係，

進而生成連貫且符合語境的輸出文本。

留言

留言分享你的想法！

王啟樺的沙龍

630會員

2.0K內容數

Outline as Content

王啟樺的沙龍的其他內容

2024/04/28

LLM 006｜BERT與GPT是怎麼從Transformer演化來的？

在上一期「LLM 005｜大語言模型是如何利用Transformer理解語言的？」我們提到，Transformer是大語言模型理解語言的關鍵。而Transformer架構兩個主要的後代是BERT以及GPT。 BERT是bidirectional encoder representati

2024/04/28

LLM 006｜BERT與GPT是怎麼從Transformer演化來的？

2024/04/26

LLM 004｜創建大語言模型需要哪兩個關鍵階段？

從頭開始寫大語言模型的程式碼，是最好理解大語言模型的機制與限制的方風。從頭開始寫大語言模型的程式碼，可以幫助我們得到預訓練與微調整開源大語言模型架構所需要的知識，並應用到特定領域的數據及以及任務。客製化大語言模型一般來說比起通用大語言模型有更好的表現。一個具體的例子是

2024/04/26

LLM 004｜創建大語言模型需要哪兩個關鍵階段？

2024/04/25

LLM 003｜人工智慧如何從數據中學習？

大語言模型能夠生成文本，因此被認為是生成式人工智慧的一種形式。人工智慧的學科任務，是製作機器，使其能執行需要人類智慧才能執行的任務，例如理解語言，便是模式，做出決策。除了大語言模型，人工智慧也包含了深度學習以及機器學習。機器學習的學科任務，是透過演算法來實踐AI。特別

2024/04/25

LLM 003｜人工智慧如何從數據中學習？

看更多

你可能也想看

Learn AI 不 BI

AI說書 - 從0開始 - 128 | Transformer 和 BERT 模型參數比較

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在 AI說書 - 從0開始 - 127 中提及： Transformer 的關鍵參數為：原始 Transformer 模型中，左圖的 N = 6 原始 Tran

#AI#ai#PromptEngineering

2024/08/12

Learn AI 不 BI

AI說書 - 從0開始 - 128 | Transformer 和 BERT 模型參數比較

#AI#ai#PromptEngineering

2024/08/12

Learn AI 不 BI

AI說書 - 從0開始 - 127 | BERT 和 Transformer 模型比較

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 69 的第二章內容，我們拿 Encoder 出來看：幾點注意如下： BERT 模型使用 M

#AI#ai#PromptEngineering

2024/08/11

Learn AI 不 BI

AI說書 - 從0開始 - 127 | BERT 和 Transformer 模型比較

#AI#ai#PromptEngineering

2024/08/11

Learn AI 不 BI

AI說書 - 從0開始 - 67

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder

#AI#ai#PromptEngineering

2024/06/30

Learn AI 不 BI

AI說書 - 從0開始 - 67

#AI#ai#PromptEngineering

2024/06/30

Learn AI 不 BI

AI說書 - 從0開始 - 42

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在AI說書 - 從0開始 - 41中，我們提及 Transformer 的 Encoder 架構如下圖所示，同時我們羅列幾個要點於圖示右邊：原始 Transform

#AI#ai#PromptEngineering

2024/06/23

Learn AI 不 BI

AI說書 - 從0開始 - 42

#AI#ai#PromptEngineering

2024/06/23

Learn AI 不 BI

AI說書 - 從0開始 - 41

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。繼AI說書 - 從0開始 - 39，我們陳述了 Transformer 的全貌，那 Transformer 的 Encoder 部分長怎樣呢，如下所示：在原始

#AI#ai#PromptEngineering

2024/06/22

Learn AI 不 BI

AI說書 - 從0開始 - 41

#AI#ai#PromptEngineering

2024/06/22

Learn AI 不 BI

AI說書 - 從0開始 - 40

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer 中的 Attention 機制是 'Word-to-Word' 操作，抑或是 'Token-to-Token' 操作，白話來講就是：「對於句子中

#AI#ai#PromptEngineering

2024/06/22

Learn AI 不 BI

AI說書 - 從0開始 - 40

#AI#ai#PromptEngineering

2024/06/22

Marcos的方格子

大型語言模型常用的提詞框架 | Coursera 課程回顧(下)

大型語言模型（Large Language Model，LLM）是一項人工智慧技術，其目的在於理解和生成人類語言，可將其想像成一種高階的「文字預測機器」，然而，它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外，今天我們會介紹使用 LLM 的框架。

#PromptPattern#LLM#ChatGPT

2024/03/09

Marcos的方格子

大型語言模型常用的提詞框架 | Coursera 課程回顧(下)

#PromptPattern#LLM#ChatGPT

2024/03/09

王啟樺的沙龍

【大語言模型LLMs：為何「大」字至關重要？】

大語言模型（LLMs）對於任何對人工智能和自然語言處理感興趣的人來說都是一個令人興奮的領域。這類模型，如GPT-4，透過其龐大的數據集和複雜的參數設置，提供了前所未有的語言理解和生成能力。那麼，究竟是什麼讓這些模型「大」得如此不同呢？

#大語言模型#GPT4#ChatGPT

2024/01/19

王啟樺的沙龍

【大語言模型LLMs：為何「大」字至關重要？】

#大語言模型#GPT4#ChatGPT

2024/01/19

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News