AI說書 - 從0開始 - 114 | 使用 Google Trax 建立 Transformer 模型

發佈於三分鐘學AI

2024/08/05 更新2024/08/04 發佈閱讀 1 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

我們已經在 AI說書 - 從0開始 - 113 中安裝了 Google Trax，現在來建立 Transformer 模型：

model = trax.models.Transformer(input_vocab_size = 33300,
                                d_model = 512,
                                d_ff = 2048,
                                n_heads = 8,
                                n_encoder_layers = 6,
                                n_decoder_layer = 6,
                                max_len = 2048,
                                mode = 'predict')

我們可以使用以下程式，以另一視角看 Transformer 架構：

from pprint import pprint
pprint(vars(model))

結果為：

raw-image

Learn AI 不 BI三分鐘學AIAI從0開始-第四章

留言

留言分享你的想法！

Learn AI 不 BI

238會員

824內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

Learn AI 不 BI的其他內容

2024/08/10

AI說書 - 從0開始 - 122 | 第四章額外閱讀項目

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從 AI說書 - 從0開始 - 99 到 AI說書 - 從0開始 - 121，我們完成書籍：Transformers for Natural Language Proc

2024/08/10

AI說書 - 從0開始 - 122 | 第四章額外閱讀項目

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從 AI說書 - 從0開始 - 99 到 AI說書 - 從0開始 - 121，我們完成書籍：Transformers for Natural Language Proc

2024/08/09

AI說書 - 從0開始 - 121 | Back-Translation 使用情境

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們在 AI說書 - 從0開始 - 120 中使用 Google Gemini 將一段英文翻譯成法文，那我不是法文專業者，怎麼知道翻譯的好不好呢？我可以使用 B

2024/08/09

AI說書 - 從0開始 - 121 | Back-Translation 使用情境

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們在 AI說書 - 從0開始 - 120 中使用 Google Gemini 將一段英文翻譯成法文，那我不是法文專業者，怎麼知道翻譯的好不好呢？我可以使用 B

2024/08/09

AI說書 - 從0開始 - 120 | Google Gemini 使用

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。現在我們來看看 Google Gemini (https://gemini.google.com/ to start a dialog) 的能力：回答如下：

2024/08/09

AI說書 - 從0開始 - 120 | Google Gemini 使用

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。現在我們來看看 Google Gemini (https://gemini.google.com/ to start a dialog) 的能力：回答如下：

你可能也想看

小芝女看天下

用文字創造旅行基金：我的蝦皮分潤計畫體驗

蝦皮分潤計畫讓我在分享旅遊文章時，也能透過推薦好物累積被動收入，貼補旅行基金。這篇文章，除了介紹計畫的操作亮點與心得，也分享我最常應用的案例：「旅行必備小物 TOP5」，包含行李鎖、免洗內衣褲、分裝瓶、折疊衣架與真空壓縮袋，幫助出國打包更輕鬆。想同時記錄旅行、分享好物又創造額外收入的你，千萬別錯過！

#出國旅行必備小物#旅行必備清單#長途旅行行李怎麼帶

2025/09/13

小芝女看天下

用文字創造旅行基金：我的蝦皮分潤計畫體驗

蝦皮分潤計畫讓我在分享旅遊文章時，也能透過推薦好物累積被動收入，貼補旅行基金。這篇文章，除了介紹計畫的操作亮點與心得，也分享我最常應用的案例：「旅行必備小物 TOP5」，包含行李鎖、免洗內衣褲、分裝瓶、折疊衣架與真空壓縮袋，幫助出國打包更輕鬆。想同時記錄旅行、分享好物又創造額外收入的你，千萬別錯過！

#出國旅行必備小物#旅行必備清單#長途旅行行李怎麼帶

2025/09/13

蝦皮分潤計畫｜申請、操作教學，輕鬆賺取被動收入！

想增加被動收入？加入蝦皮分潤計畫是輕鬆上手的好方法！本文提供完整教學，包含申請流程、賺取分潤技巧，以及實際使用心得分享，助你輕鬆獲得額外收入。

#蝦皮分潤計畫#蝦皮分潤#蝦皮分潤計畫是什麼

2025/09/12

蝦皮分潤計畫｜申請、操作教學，輕鬆賺取被動收入！

想增加被動收入？加入蝦皮分潤計畫是輕鬆上手的好方法！本文提供完整教學，包含申請流程、賺取分潤技巧，以及實際使用心得分享，助你輕鬆獲得額外收入。

#蝦皮分潤計畫#蝦皮分潤#蝦皮分潤計畫是什麼

2025/09/12

Learn AI 不 BI

AI說書 - 從0開始 - 128 | Transformer 和 BERT 模型參數比較

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在 AI說書 - 從0開始 - 127 中提及： Transformer 的關鍵參數為：原始 Transformer 模型中，左圖的 N = 6 原始 Tran

#AI#ai#PromptEngineering

2024/08/12

Learn AI 不 BI

AI說書 - 從0開始 - 128 | Transformer 和 BERT 模型參數比較

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在 AI說書 - 從0開始 - 127 中提及： Transformer 的關鍵參數為：原始 Transformer 模型中，左圖的 N = 6 原始 Tran

#AI#ai#PromptEngineering

2024/08/12

Learn AI 不 BI

AI說書 - 從0開始 - 116 | Google Trax 進行推論

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型，並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing，現

#AI#ai#PromptEngineering

2024/08/06

Learn AI 不 BI

AI說書 - 從0開始 - 116 | Google Trax 進行推論

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型，並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing，現

#AI#ai#PromptEngineering

2024/08/06

Learn AI 不 BI

AI說書 - 從0開始 - 115 | Google Trax 載入預訓練權重

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。現在我們來載入預訓練權重，預訓練的權重包含 Transformer 的智慧

#AI#ai#promptengineering

2024/08/05

Learn AI 不 BI

AI說書 - 從0開始 - 115 | Google Trax 載入預訓練權重

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。現在我們來載入預訓練權重，預訓練的權重包含 Transformer 的智慧

#AI#ai#promptengineering

2024/08/05

Learn AI 不 BI

AI說書 - 從0開始 - 114 | 使用 Google Trax 建立 Transformer 模型

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在 AI說書 - 從0開始 - 113 中安裝了 Google Trax，現在來建立 Transformer 模型： model = trax,models.

#AI#ai#PromptEngineering

2024/08/04

Learn AI 不 BI

AI說書 - 從0開始 - 114 | 使用 Google Trax 建立 Transformer 模型

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在 AI說書 - 從0開始 - 113 中安裝了 Google Trax，現在來建立 Transformer 模型： model = trax,models.

#AI#ai#PromptEngineering

2024/08/04

Learn AI 不 BI

AI說書 - 從0開始 - 82

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo

#AI#ai#PromptEngineering

2024/07/10

Learn AI 不 BI

AI說書 - 從0開始 - 82

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo

#AI#ai#PromptEngineering

2024/07/10

Learn AI 不 BI

AI說書 - 從0開始 - 79

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。如 AI說書 - 從0開始 - 78 所述，經過 AI說書 - 從0開始 - 74 到目前為止的實驗，應可以漸漸感受到 Transformer 模型如何從數學層面漸漸往

#AI#ai#PromptEngineering

2024/07/08

Learn AI 不 BI

AI說書 - 從0開始 - 79

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。如 AI說書 - 從0開始 - 78 所述，經過 AI說書 - 從0開始 - 74 到目前為止的實驗，應可以漸漸感受到 Transformer 模型如何從數學層面漸漸往

#AI#ai#PromptEngineering

2024/07/08

Learn AI 不 BI

AI說書 - 從0開始 - 66

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。先做個總回顧： Transformer 架構總覽：AI說書 - 從0開始 - 39 Attention 意圖說明：AI說書 - 從0開始 - 40 Transfo

#AI#ai#PositionalEncoding

2024/06/29

Learn AI 不 BI

AI說書 - 從0開始 - 66

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。先做個總回顧： Transformer 架構總覽：AI說書 - 從0開始 - 39 Attention 意圖說明：AI說書 - 從0開始 - 40 Transfo

#AI#ai#PositionalEncoding

2024/06/29

Learn AI 不 BI

AI說書 - 從0開始 - 63

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 62 說：如果我參照原始 Google 釋出的 Transformer 論文的參數，在三個字的句子情況下，Single-Head At

#AI#ai#PositionalEncoding

2024/06/28

Learn AI 不 BI

AI說書 - 從0開始 - 63

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 62 說：如果我參照原始 Google 釋出的 Transformer 論文的參數，在三個字的句子情況下，Single-Head At

#AI#ai#PositionalEncoding

2024/06/28

Learn AI 不 BI

AI說書 - 從0開始 - 47

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧我們在AI說書 - 從0開始 - 41中，提及 Transformer 的 Encoder 架構如下圖所示：此外我已經在AI說書 - 從0開始 - 42中，

#AI#ai#PromptEngineering

2024/06/25

Learn AI 不 BI

AI說書 - 從0開始 - 47

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧我們在AI說書 - 從0開始 - 41中，提及 Transformer 的 Encoder 架構如下圖所示：此外我已經在AI說書 - 從0開始 - 42中，

#AI#ai#PromptEngineering

2024/06/25

Learn AI 不 BI

AI說書 - 從0開始 - 46

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續AI說書 - 從0開始 - 45，我們介紹了 Google 於2017 年提出的 Transformer 架構的 Positional Encoding (PE)

#AI#ai#PromptEngineering

2024/06/24

Learn AI 不 BI

AI說書 - 從0開始 - 46

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續AI說書 - 從0開始 - 45，我們介紹了 Google 於2017 年提出的 Transformer 架構的 Positional Encoding (PE)

#AI#ai#PromptEngineering

2024/06/24

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News