我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
延續 AI說書 - 從0開始 - 251 | Attention Head 視覺化 對 BertViz 的操作,如果我們點選 「cats」一詞,會得到以下結果圖:
其顯示模型學會了「cats」與「animals」有相關。
也可以更改句子,然後點擊 Layer 和 Attention Head 數目來可視化 Transformer 如何建立連接,當然,你會發現限制,好的和壞的連接將向您展示 Transformer 如何運作和故障,這兩種情況對於解釋 Transformer 的行為方式以及為什麼它們需要更多層、參數和資料都很有價值。