我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
整理目前手上有的素材:
現在來撰寫模型的 Config 檔,程式為:
from transformers import RobertaConfig
config = RobertaConfig(vocab_size = 52000,
max_position_embeddings = 514,
num_attention_heads = 12,
num_hidden_layers = 6,
type_vocab_size = 1)
可以使用指令看看完整 Config 長怎麼樣:
print(config)
結果為:
詳細參數意涵,之後會介紹,這裡的參數配置同 DistilBERT Transformer,詳見 AI說書 - 從0開始 - 161 | RoBERTa 模型背景,接著就可以把稍早訓練好的 Tokenizer 匯入:
from transformers import RobertaTokenizer
tokenizer = RobertaTokenizer.from_pretrained("./KantaiBERT", max_length = 512)