我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
layer_parameters = [p for n, p in model.named_parameters() if 'layer.3' in n]
結果如下:

當中包含以下幾個額外重點:
- cuda: 0 表示這些參數是掛載在第一個 GPU 上
- requires_grad = True 表示這些參數需要計算梯度,亦即需要 Training 或 Learning
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
layer_parameters = [p for n, p in model.named_parameters() if 'layer.3' in n]
結果如下:
當中包含以下幾個額外重點: