我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
回顧一下目前手上有的素材:
我們在 AI說書 - 從0開始 - 147 完成了訓練程式的撰寫,現在我們來看輸出長什麼樣子:
可以看到驗證集的準確度隨著訓練次數增加而提升,也可以做更細部的呈現,程式為:
plt.figure(figsize=(15,8))
plt.title("Training loss")
plt.xlabel("Batch")
plt.ylabel("Loss")
plt.plot(train_loss_set)
plt.show()
結果為: