我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。我們在 AI說書 - 從0開始 - 143 中提到 Optimizer 以及 Decay Rate,那如果我想指定看模型中特定「層」的參數怎麼辦,程式語法如下:layer_parameters = [p for n, p in model.named_parameters() if 'layer.3' in n]結果如下:當中包含以下幾個額外重點:cuda: 0 表示這些參數是掛載在第一個 GPU 上requires_grad = True 表示這些參數需要計算梯度,亦即需要 Training 或 Learning