我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
- 準備資料集:AI說書 - 從0開始 - 162 | 準備Pretrain模型需要的資料
- 準備必備函數庫:AI說書 - 從0開始 - 163 | 準備Pretrain模型需要的函數庫
- Tokenizer 前言:AI說書 - 從0開始 - 164 | Tokenizer 前言
- 訓練自己的 Tokenizer:AI說書 - 從0開始 - 165 | 訓練自己的Tokenizer
- 保存訓練好的 Tokenizer:AI說書 - 從0開始 - 166 | 保存訓練好的 Tokenizer
- Tokenizer 使用方式:AI說書 - 從0開始 - 167 | Tokenizer 使用方式
- GPU 及 CUDA 確認:AI說書 - 從0開始 - 168 | GPU 資源確認
- 編輯模型的 Config 檔:AI說書 - 從0開始 - 169 | 編輯模型的 Config 檔
- 初始化模型:AI說書 - 從0開始 - 170 | 初始化模型
初始化模型後,可以檢視模型參數的總數量:
print(model.num_parameters())
結果如下:

也可以用另一種方式來做檢視:
LP = list(model.parameters())
lp = len(LP)
print(lp)
結果如下:

這讓人好奇 106 代表什麼意涵:
for p in range(0,lp):
print(LP[p])
結果是一大串矩陣,列出一部分如下所示:
