我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
我們已經在 AI說書 - 從0開始 - 113 中安裝了 Google Trax,現在來建立 Transformer 模型:
model = trax.models.Transformer(input_vocab_size = 33300,
d_model = 512,
d_ff = 2048,
n_heads = 8,
n_encoder_layers = 6,
n_decoder_layer = 6,
max_len = 2048,
mode = 'predict')
我們可以使用以下程式,以另一視角看 Transformer 架構:
from pprint import pprint
pprint(vars(model))
結果為: