我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
回顧一下目前手上有的素材:
現在要來配置 Optimizer,其程式為:
optimizer = BertAdam(optimizer_grouped_parameters, lr = 2e-5, warmup = .1)
接著定義衡量訓練結果好壞的函數:
def flat_accuracy(preds, labels):
pred_flat = np.argmax(preds, axis = 1).flatten()
labels_flat = labels.flatten()
return np.sum(pred_flat == labels_flat) / len(labels_flat)