我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
接著展示「pie」及「logic」兩詞之間的相似度計算結果:
word1 = "pie"
word2 = "logic"
print("Similarity", similarity(word1, word2), word1, word2)
結果為:
我們可以假設單字 "pie" 將出現在 Tokenized Dictionary 中,但如果不是,或者另一個詞不是呢?因此,我們應該在處理流程中設置功能來檢測不在詞典中的單詞,並實施更正或替代方案,此外,我們還應該設置功能來檢測數據集中可能重要的單詞,例如,專案經理可以通過 Tokenizer 處理數百份文件,以檢測未知單詞,並將其存儲在文件中以進行分析,這只是其中一個例子,每個項目都需要特定的質量控制措施。
對於超出簡單應用範圍的特定任務,生僻單字會對 Transformer 的輸出產生毀滅性影響,管理稀有詞擴展到自然語言的許多領域。例如:
以下舉例展示「eleutheromania」及「liberty」兩詞之間的相似度計算結果:
word1 = "eleutheromania"
word2 = "liberty"
print("Similarity", similarity(word1, word2), word1, word2)
結果為:
不幸的是,如果使用了罕見的單詞,程式就會變得混亂,並且每次運行後我們都會得到意想不到的結果,如果在專案期間發生這種情況,則必須將包含無法識別的稀有單字的附加文字輸入到 Tokenizer 訓練過程中,例如,如果我們在律師事務所實作 Transformer 模型來匯總文件或其他任務,我們必須小心!