我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
model = trax.models.Transformer(input_vocab_size = 33300,
d_model = 512,
d_ff = 2048,
n_heads = 8,
n_encoder_layers = 6,
n_decoder_layer = 6,
max_len = 2048,
mode = 'predict')
我們可以使用以下程式,以另一視角看 Transformer 架構:
from pprint import pprint
pprint(vars(model))
結果為: