我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
整理目前手上有的素材:
要執行本章的宗旨 - Pretrain Model,勢必需要使用 GPU 資源,申請方法如 使用Meta釋出的模型,實作Chat GPT - Part 0 所述,程式為:
!nvidia-smi
得到以下結果:
接著確認 NVIDIA Compute Unified Device Architecture (CUDA) 環境:
import torch
torch.cuda.is_available()
得到以下結果: