我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。

過多的詞彙會導致稀疏的表示,相反,詞彙量過少則會扭曲 NLP 任務,詞彙量的選擇對模型的訓練和實施會產生關鍵影響。
我們也可以先列出 T5 模型的架構,使用以下程式:
if(display_architecture == True):
print(model)
針對 Encoder 的結果為:

針對 Decoder 的結果為:

- Embedding(32, 16):這表示一個嵌入層,它將 32 個可能的輸入(例如,位置編號或其他離散值)映射到一個 16 維的嵌入空間中。換句話說,對於每個輸入值,這個層會產生一個長度為 16 的向量表示
- relative_attention_bias:這是用於處理相對位置注意力的偏置向量。相對注意力偏置的作用是根據位置資訊來調整注意力機制,使得模型在處理序列數據時能夠更好地理解相鄰位置之間的關聯













