我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
接著展示「corporations」及「rights」兩詞之間的相似度計算結果:
word1 = "corporations"
word2 = "rights"
print("Similarity",similarity(word1,word2), word1, word2)
結果為:
這個字是一個未知的 [unk] 標記,如果該單字很重要,丟失的單字將引發一系列事件和問題,從而扭曲 Transformer 模型的輸出,我們將把缺失的單字稱為 unk。
如果 Transformer 在某些情況下產生糟糕的結果,問題清單將繼續增加,我們可以認為 0.8 對於訓練階段特定下游任務的 Transformer 模型來說是一個出色的表現,但在現實生活中,誰願意使用 20% 的時間都會出錯的系統。