AI說書 - 從0開始 - 183 | 初始化模型與 Tokenizer

2024/09/20 更新2024/09/20 發佈閱讀 1 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

整理目前手上有的素材：

AI說書 - 從0開始 - 180 | RoBERTa 預訓練前言：RoBERTa 預訓練前言
AI說書 - 從0開始 - 181 | 預訓練模型資料下載與相關依賴準備：預訓練模型資料下載與相關依賴準備
AI說書 - 從0開始 - 182 | 資料清洗：資料清洗

要預訓練模型自然要準備 GPU 資源，我們使用 Goolge Colab 環境 (詳見使用Meta釋出的模型，實作Chat GPT - Part 0)，並透過以下程式進行 GPU 確認：

!nvidia-smi
import torch 
torch.cuda.is_available()

結果為：

接著進行定義模型參數 (撰寫 Config 檔)：

from transformers import RobertaConfig, RobertaForCausalLM

config = RobertaConfig(vocab_size = 52000,
													max_position_embeddings = 514,
													num_attention_heads = 12,
													num_hidden_layers = 6,
													type_vocab_size = 1,
													is_decoder = True) # Set up the model for potential seq2seq use, allowing for autoregressive outputs

當中的 type_voab_size，有以下配置情況：

配置 type_voab_size = 1：

用途：單句子輸入
示例：適用於只處理單一輸入文本的任務，例如單句子分類、情感分析

配置 type_voab_size = 2：

用途：雙句子輸入（例如，在BERT中，第一句和第二句）
示例：適用於需要比較或關聯兩個句子的任務，例如自然語言推理、句子對匹配、問答系統

配置 type_voab_size = n (n > 2)：

用途：多句子或多段輸入
示例：適用於需要處理多個不同段落或句子的任務，例如文檔級別的任務，或更複雜的上下文情景分析

至於 is_decoder = True 代表：An Autoregressive Model Continues a Sequence from the Last Token Onward

接著進行模型初始化：

model = RobertaForCausalLM(config = config)

再來配置 Hugging Face 預訓練的 Tokenizer：

from transformers import RobertaTokenizer

tokenizer = RobertaTokenizer.from_pretrained('roberta-base')

如果想要參閱此 Tokenizer 的特殊 Token，可以使用以下方式：

print("Special tokens:", tokenizer.special_tokens_map)

得到結果為：

Learn AI 不 BI三分鐘學AIAI從0開始-第六章

留言

留言分享你的想法！

Learn AI 不 BI

240會員

900內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

Learn AI 不 BI的其他內容

2024/09/25

AI說書 - 從0開始 - 190 | 第六章額外閱讀

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從 AI說書 - 從0開始 - 159 | Pretain 模型緣起到 AI說書 - 從0開始 - 189 | 製作聊天介面，我們完成書籍：Transformers

2024/09/25

AI說書 - 從0開始 - 190 | 第六章額外閱讀

2024/09/24

AI說書 - 從0開始 - 189 | 額外改進方向

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。整理目前手上有的素材： AI說書 - 從0開始 - 180 | RoBERTa 預訓練前言：RoBERTa 預訓練前言 AI說書 - 從0開始 - 181 | 預訓

2024/09/24

AI說書 - 從0開始 - 189 | 額外改進方向

2024/09/24

AI說書 - 從0開始 - 188 | 製作聊天介面

2024/09/24

AI說書 - 從0開始 - 188 | 製作聊天介面

看更多

你可能也想看