我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
- 準備資料集:AI說書 - 從0開始 - 162 | 準備Pretrain模型需要的資料
- 準備必備函數庫:AI說書 - 從0開始 - 163 | 準備Pretrain模型需要的函數庫
- Tokenizer 前言:AI說書 - 從0開始 - 164 | Tokenizer 前言
- 訓練自己的 Tokenizer:AI說書 - 從0開始 - 165 | 訓練自己的Tokenizer
- 保存訓練好的 Tokenizer:AI說書 - 從0開始 - 166 | 保存訓練好的 Tokenizer
- Tokenizer 使用方式:AI說書 - 從0開始 - 167 | Tokenizer 使用方式
要執行本章的宗旨 - Pretrain Model,勢必需要使用 GPU 資源,申請方法如 使用Meta釋出的模型,實作Chat GPT - Part 0 所述,程式為:
!nvidia-smi
得到以下結果:

接著確認 NVIDIA Compute Unified Device Architecture (CUDA) 環境:
import torch
torch.cuda.is_available()
得到以下結果:
