AI說書 - 從0開始 - 292 | Tokenizer 重要性範例之展示 3

更新於 發佈於 閱讀時間約 2 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


接著展示「etext」及「declaration」兩詞之間的相似度計算結果:

word1 = "etext"
word2 = "declaration"
print("Similarity", similarity(word1, word2), word1, word2)


結果為:

raw-image


它們的餘弦相似度似乎可以確定其預測並超過 0.5,在瑣碎或社交媒體層面,一切看起來都很好,然而,從專業層面來說,結果卻是災難性的!


etext 是筆記本中處理的文本文件中的一個詞,指的是古騰堡計劃網站上每本電子書的前言部分,這意味著單詞 etext 是編輯器的文本文件。


declaration 是一個有意義的詞,與《獨立宣言》的實際內容有關,etext 是古騰堡計劃添加到其電子書中的序言的一部分。


這可能會產生錯誤的自然語言推理,例如當要求 Transformer 生成文本時,將 "etext" 誤認為 "declaration","etext" 是文件編輯器使用的詞語,與我們正在處理的文本文件中的 "declaration" 無關,"declaration" 是《獨立宣言》的一部分,《獨立宣言》可以追溯到1776年,而 "etext"(電子文本)則起源於20世紀,一個 NLP 模型如果在談論《獨立宣言》時使用了電子文本的詞彙,將會犯錯。

留言
avatar-img
留言分享你的想法!
avatar-img
Learn AI 不 BI
229會員
665內容數
這裡將提供: AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹,一起在未來AI的世界擁抱AI技術,不BI。
Learn AI 不 BI的其他內容
2025/01/29
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在本章中,我們測量了 Tokenization 對 Transformer 模型後續層的影響,Transformer 模型只能關注堆疊的嵌入層和位置編碼子層中的 Tok
2025/01/29
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在本章中,我們測量了 Tokenization 對 Transformer 模型後續層的影響,Transformer 模型只能關注堆疊的嵌入層和位置編碼子層中的 Tok
2025/01/28
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 想要控管 Token ID 映射的品質,有鑑於此,先定義,先定義 Tokenizer: model_name = 'bert-base-uncased' token
Thumbnail
2025/01/28
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 想要控管 Token ID 映射的品質,有鑑於此,先定義,先定義 Tokenizer: model_name = 'bert-base-uncased' token
Thumbnail
2025/01/27
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 304 | WordPiece Tokenization 介紹與偵測 講 WordPiece Tokenizer,而 AI說書 - 從
Thumbnail
2025/01/27
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 304 | WordPiece Tokenization 介紹與偵測 講 WordPiece Tokenizer,而 AI說書 - 從
Thumbnail
看更多
你可能也想看
Thumbnail
孩子寫功課時瞇眼?小心近視!這款喜光全光譜TIONE⁺光健康智慧檯燈,獲眼科院長推薦,網路好評不斷!全光譜LED、180cm大照明範圍、5段亮度及色溫調整、350度萬向旋轉,讓孩子學習更舒適、保護眼睛!
Thumbnail
孩子寫功課時瞇眼?小心近視!這款喜光全光譜TIONE⁺光健康智慧檯燈,獲眼科院長推薦,網路好評不斷!全光譜LED、180cm大照明範圍、5段亮度及色溫調整、350度萬向旋轉,讓孩子學習更舒適、保護眼睛!
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧目前手上有的素材: 載入文本並執行 Tokenization:AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧目前手上有的素材: 載入文本並執行 Tokenization:AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧目前手上有的素材: 載入文本並執行 Tokenization:AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧目前手上有的素材: 載入文本並執行 Tokenization:AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧目前手上有的素材: 載入文本並執行 Tokenization:AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧目前手上有的素材: 載入文本並執行 Tokenization:AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧目前手上有的素材: 載入文本並執行 Tokenization:AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧目前手上有的素材: 載入文本並執行 Tokenization:AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧目前手上有的素材: 載入文本並執行 Tokenization:AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧目前手上有的素材: 載入文本並執行 Tokenization:AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 295 | 各 Tokenizer 之優勢與安裝、AI說書 - 從0開始 - 296 | 各 Tokenizer 之展示、AI說書 -
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 295 | 各 Tokenizer 之優勢與安裝、AI說書 - 從0開始 - 296 | 各 Tokenizer 之展示、AI說書 -
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 295 | 各 Tokenizer 之優勢與安裝 及 AI說書 - 從0開始 - 296 | 各 Tokenizer 之展示,我們繼續
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 295 | 各 Tokenizer 之優勢與安裝 及 AI說書 - 從0開始 - 296 | 各 Tokenizer 之展示,我們繼續
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 295 | 各 Tokenizer 之優勢與安裝 安裝的各種 Tokenizer,我們來展示其用處: Sentence Toke
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 295 | 各 Tokenizer 之優勢與安裝 安裝的各種 Tokenizer,我們來展示其用處: Sentence Toke
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 接著展示「etext」及「declaration」兩詞之間的相似度計算結果: word1 = "etext" word2 = "declaration" print(
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 接著展示「etext」及「declaration」兩詞之間的相似度計算結果: word1 = "etext" word2 = "declaration" print(
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 287 | Tokenizer 重要性範例之資料準備,接著來執行 Tokenization: sample = open("text
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 287 | Tokenizer 重要性範例之資料準備,接著來執行 Tokenization: sample = open("text
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News