AI說書 - 從0開始 - 293 | Tokenizer 重要性範例之展示 4、5

更新於 2025/01/12發佈於 2025/01/12閱讀時間約 3 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

接著展示「pie」及「logic」兩詞之間的相似度計算結果：

word1 = "pie"
word2 = "logic" 
print("Similarity", similarity(word1, word2), word1, word2)

結果為：

我們可以假設單字 "pie" 將出現在 Tokenized Dictionary 中，但如果不是，或者另一個詞不是呢？因此，我們應該在處理流程中設置功能來檢測不在詞典中的單詞，並實施更正或替代方案，此外，我們還應該設置功能來檢測數據集中可能重要的單詞，例如，專案經理可以通過 Tokenizer 處理數百份文件，以檢測未知單詞，並將其存儲在文件中以進行分析，這只是其中一個例子，每個項目都需要特定的質量控制措施。

對於超出簡單應用範圍的特定任務，生僻單字會對 Transformer 的輸出產生毀滅性影響，管理稀有詞擴展到自然語言的許多領域。例如：

資料集中可能會出現生僻字，但會被忽視，或者模型在處理這些生僻字方面缺乏訓練
生僻詞可以是醫學、法律、工程術語或任何其他專業術語
生僻字可以是俚語
英語有數百種變體，例如，美國、英國、新加坡、印度、澳洲和許多其他國家
生僻字可能來自幾個世紀前寫的文本，但這些文本已被遺忘或只有專家才使用

以下舉例展示「eleutheromania」及「liberty」兩詞之間的相似度計算結果：

word1 = "eleutheromania"
word2 = "liberty" 
print("Similarity", similarity(word1, word2), word1, word2)

結果為：

不幸的是，如果使用了罕見的單詞，程式就會變得混亂，並且每次運行後我們都會得到意想不到的結果，如果在專案期間發生這種情況，則必須將包含無法識別的稀有單字的附加文字輸入到 Tokenizer 訓練過程中，例如，如果我們在律師事務所實作 Transformer 模型來匯總文件或其他任務，我們必須小心！

Learn AI 不 BI三分鐘學AI (2)AI從0開始-第十章

留言

留言分享你的想法！

Learn AI 不 BI

237會員

799內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

Learn AI 不 BI的其他內容

2025/01/29

AI說書 - 從0開始 - 308 | 第十章額外閱讀

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在本章中，我們測量了 Tokenization 對 Transformer 模型後續層的影響，Transformer 模型只能關注堆疊的嵌入層和位置編碼子層中的 Tok

2025/01/29

AI說書 - 從0開始 - 308 | 第十章額外閱讀

2025/01/28

AI說書 - 從0開始 - 307 | Token ID 映射品質管控

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。想要控管 Token ID 映射的品質，有鑑於此，先定義，先定義 Tokenizer： model_name = 'bert-base-uncased' token

2025/01/28

AI說書 - 從0開始 - 307 | Token ID 映射品質管控

2025/01/27

AI說書 - 從0開始 - 306 | Token ID 映射顯示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 304 | WordPiece Tokenization 介紹與偵測講 WordPiece Tokenizer，而 AI說書 - 從

2025/01/27

AI說書 - 從0開始 - 306 | Token ID 映射顯示

看更多

你可能也想看

黛•Adele的生活隨筆

斜槓生活日常｜不受時間空間限制，分享喜歡的產品也能有被動收入｜蝦皮分潤計畫

常常被朋友問「哪裡買的？」嗎？透過蝦皮分潤計畫，把日常購物的分享多加一個步驟，就能轉換成現金回饋。門檻低、申請簡單，特別適合學生與上班族，讓零碎時間也能創造小確幸。

#蝦皮分潤計畫#蝦皮聯盟行銷#蝦皮副業

2025/09/06

黛•Adele的生活隨筆

斜槓生活日常｜不受時間空間限制，分享喜歡的產品也能有被動收入｜蝦皮分潤計畫

#蝦皮分潤計畫#蝦皮聯盟行銷#蝦皮副業

2025/09/06

方格子 vocus 官方沙龍

徵才：社群與內容行銷專員 (Community & Marketing Specialist)

嗨！歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台，並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈！「創作至上」是我們的核心價值，我們致力於透過平台功能與服務，賦予創作者更多的可能。 vocus 平台匯聚了

#vocus#徵才#社群行銷

2025/08/11

方格子 vocus 官方沙龍

徵才：社群與內容行銷專員 (Community & Marketing Specialist)

#vocus#徵才#社群行銷

2025/08/11