我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
替換生僻字詞本身就是一個項目,這項工作是為特定任務和項目保留的,例如,假設公司預算可以支付建立航空知識庫的成本,在這種情況下,值得花時間查詢 Tokenized Directory 以查找它遺漏的單字,此知識庫將定期更新。
我們可以用「freedom」來代替「eleutheromania」這個詞,它傳達了相同的元概念,接著展示「freedom」及「liberty」兩詞之間的相似度計算結果:
word1 = "freedom"
word2 = "liberty"
print("Similarity", similarity(word1, word2), word1, word2)
結果為:
無論如何,有些生僻詞需要被更主流的字詞所取代,例如,我們可以使用替換詞建立查詢,執行這些查詢直到發現相關性超過 0.9,此外,如果我們管理一個重要的法律項目,我們可以將包含生僻單字的重要文件翻譯成標準英語,因此,Transformer 在 NLP 任務上的表現將會提高,公司的知識庫也會逐漸增加。