我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
整理目前手上有的素材:
初始化模型後,可以檢視模型參數的總數量:
print(model.num_parameters())
結果如下:
也可以用另一種方式來做檢視:
LP = list(model.parameters())
lp = len(LP)
print(lp)
結果如下:
這讓人好奇 106 代表什麼意涵:
for p in range(0,lp):
print(LP[p])
結果是一大串矩陣,列出一部分如下所示: