更新於 2025/01/12閱讀時間約 3 分鐘

AI說書 - 從0開始 - 293 | Tokenizer 重要性範例之展示 4、5

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


接著展示「pie」及「logic」兩詞之間的相似度計算結果:

word1 = "pie"
word2 = "logic"
print("Similarity", similarity(word1, word2), word1, word2)


結果為:


我們可以假設單字 "pie" 將出現在 Tokenized Dictionary 中,但如果不是,或者另一個詞不是呢?因此,我們應該在處理流程中設置功能來檢測不在詞典中的單詞,並實施更正或替代方案,此外,我們還應該設置功能來檢測數據集中可能重要的單詞,例如,專案經理可以通過 Tokenizer 處理數百份文件,以檢測未知單詞,並將其存儲在文件中以進行分析,這只是其中一個例子,每個項目都需要特定的質量控制措施。



對於超出簡單應用範圍的特定任務,生僻單字會對 Transformer 的輸出產生毀滅性影響,管理稀有詞擴展到自然語言的許多領域。例如:

  • 資料集中可能會出現生僻字,但會被忽視,或者模型在處理這些生僻字方面缺乏訓練
  • 生僻詞可以是醫學、法律、工程術語或任何其他專業術語
  • 生僻字可以是俚語
  • 英語有數百種變體,例如,美國、英國、新加坡、印度、澳洲和許多其他國家
  • 生僻字可能來自幾個世紀前寫的文本,但這些文本已被遺忘或只有專家才使用


以下舉例展示「eleutheromania」及「liberty」兩詞之間的相似度計算結果:

word1 = "eleutheromania"
word2 = "liberty"
print("Similarity", similarity(word1, word2), word1, word2)


結果為:


不幸的是,如果使用了罕見的單詞,程式就會變得混亂,並且每次運行後我們都會得到意想不到的結果,如果在專案期間發生這種情況,則必須將包含無法識別的稀有單字的附加文字輸入到 Tokenizer 訓練過程中,例如,如果我們在律師事務所實作 Transformer 模型來匯總文件或其他任務,我們必須小心!



分享至
成為作者繼續創作的動力吧!
© 2025 vocus All rights reserved.