AI說書 - 從0開始 - 292 | Tokenizer 重要性範例之展示 3

發佈於三分鐘學AI (2)

2025/01/11 更新2025/01/11 發佈閱讀 2 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

接著展示「etext」及「declaration」兩詞之間的相似度計算結果：

word1 = "etext"
word2 = "declaration"
print("Similarity", similarity(word1, word2), word1, word2)

結果為：

raw-image

它們的餘弦相似度似乎可以確定其預測並超過 0.5，在瑣碎或社交媒體層面，一切看起來都很好，然而，從專業層面來說，結果卻是災難性的！

etext 是筆記本中處理的文本文件中的一個詞，指的是古騰堡計劃網站上每本電子書的前言部分，這意味著單詞 etext 是編輯器的文本文件。

declaration 是一個有意義的詞，與《獨立宣言》的實際內容有關，etext 是古騰堡計劃添加到其電子書中的序言的一部分。

這可能會產生錯誤的自然語言推理，例如當要求 Transformer 生成文本時，將 "etext" 誤認為 "declaration"，"etext" 是文件編輯器使用的詞語，與我們正在處理的文本文件中的 "declaration" 無關，"declaration" 是《獨立宣言》的一部分，《獨立宣言》可以追溯到1776年，而 "etext"（電子文本）則起源於20世紀，一個 NLP 模型如果在談論《獨立宣言》時使用了電子文本的詞彙，將會犯錯。

#PromptEngineering

#chatgpt怎麼用

Learn AI 不 BI三分鐘學AI (2)AI從0開始-第十章

留言

留言分享你的想法！

Learn AI 不 BI

241會員

930內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

Learn AI 不 BI的其他內容

2025/01/29

AI說書 - 從0開始 - 308 | 第十章額外閱讀

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在本章中，我們測量了 Tokenization 對 Transformer 模型後續層的影響，Transformer 模型只能關注堆疊的嵌入層和位置編碼子層中的 Tok

2025/01/29

AI說書 - 從0開始 - 308 | 第十章額外閱讀

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在本章中，我們測量了 Tokenization 對 Transformer 模型後續層的影響，Transformer 模型只能關注堆疊的嵌入層和位置編碼子層中的 Tok

2025/01/28

AI說書 - 從0開始 - 307 | Token ID 映射品質管控

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。想要控管 Token ID 映射的品質，有鑑於此，先定義，先定義 Tokenizer： model_name = 'bert-base-uncased' token

2025/01/28

AI說書 - 從0開始 - 307 | Token ID 映射品質管控

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。想要控管 Token ID 映射的品質，有鑑於此，先定義，先定義 Tokenizer： model_name = 'bert-base-uncased' token

2025/01/27

AI說書 - 從0開始 - 306 | Token ID 映射顯示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 304 | WordPiece Tokenization 介紹與偵測講 WordPiece Tokenizer，而 AI說書 - 從

2025/01/27

AI說書 - 從0開始 - 306 | Token ID 映射顯示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 304 | WordPiece Tokenization 介紹與偵測講 WordPiece Tokenizer，而 AI說書 - 從

你可能也想看

夢夢 🍰 甜點魔法

🎁 夢夢的蝦皮分潤開箱日記｜雙11購物攻略＆好物清單分享♡

嗨～我是夢夢 ♡ 每年到這個時候，我都會默默開始列購物清單畢竟「蝦皮雙11」真的太好買啦 🛒✨ 這次就想跟大家分享幾樣我自己平常有在用、也準備趁雙11補貨的好物，順便聊聊我最近開始玩的「蝦皮分潤計畫」，怎麼讓分享變成小小被動收入 💰

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

夢夢 🍰 甜點魔法

🎁 夢夢的蝦皮分潤開箱日記｜雙11購物攻略＆好物清單分享♡

嗨～我是夢夢 ♡ 每年到這個時候，我都會默默開始列購物清單畢竟「蝦皮雙11」真的太好買啦 🛒✨ 這次就想跟大家分享幾樣我自己平常有在用、也準備趁雙11補貨的好物，順便聊聊我最近開始玩的「蝦皮分潤計畫」，怎麼讓分享變成小小被動收入 💰

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

騎著羊駝的摩托羅拉的沙龍

蝦皮分潤計畫-照顧多芬的神隊友

分享如何透過蝦皮解決毛孩（多芬）因換季和食物引發的皮膚過敏問題，從選用單一蛋白質的火雞肉主食，到利用寵物防舔衣舒緩傷口，並結合蝦皮雙11購物節的優惠資訊與蝦皮分潤計畫的實用教學。

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/06

騎著羊駝的摩托羅拉的沙龍

蝦皮分潤計畫-照顧多芬的神隊友

分享如何透過蝦皮解決毛孩（多芬）因換季和食物引發的皮膚過敏問題，從選用單一蛋白質的火雞肉主食，到利用寵物防舔衣舒緩傷口，並結合蝦皮雙11購物節的優惠資訊與蝦皮分潤計畫的實用教學。

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/06

Learn AI 不 BI

AI說書 - 從0開始 - 322 | Embedding 後詞彙的 Cosine 相似度計算

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/11

Learn AI 不 BI

AI說書 - 從0開始 - 322 | Embedding 後詞彙的 Cosine 相似度計算

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/11

Learn AI 不 BI

AI說書 - 從0開始 - 320 | Embedding 後詞彙相似度計算

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/09

Learn AI 不 BI

AI說書 - 從0開始 - 320 | Embedding 後詞彙相似度計算

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/09

Learn AI 不 BI

AI說書 - 從0開始 - 319 | 檢視 Embedding 是否包含某詞彙

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/08

Learn AI 不 BI

AI說書 - 從0開始 - 319 | 檢視 Embedding 是否包含某詞彙

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/08

Learn AI 不 BI

AI說書 - 從0開始 - 318 | Embedding 模型描述

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/07

Learn AI 不 BI

AI說書 - 從0開始 - 318 | Embedding 模型描述

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/07

Learn AI 不 BI

AI說書 - 從0開始 - 316 | Tokenization 後基本資訊窺探與 Embedding 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/04

Learn AI 不 BI

AI說書 - 從0開始 - 316 | Tokenization 後基本資訊窺探與 Embedding 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/04

Learn AI 不 BI

AI說書 - 從0開始 - 298 | 各 Tokenizer 之展示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 295 | 各 Tokenizer 之優勢與安裝、AI說書 - 從0開始 - 296 | 各 Tokenizer 之展示、AI說書 -

#AI#ai#PromptEngineering

2025/01/17

Learn AI 不 BI

AI說書 - 從0開始 - 298 | 各 Tokenizer 之展示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 295 | 各 Tokenizer 之優勢與安裝、AI說書 - 從0開始 - 296 | 各 Tokenizer 之展示、AI說書 -

#AI#ai#PromptEngineering

2025/01/17

Learn AI 不 BI

AI說書 - 從0開始 - 297 | 各 Tokenizer 之展示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 295 | 各 Tokenizer 之優勢與安裝及 AI說書 - 從0開始 - 296 | 各 Tokenizer 之展示，我們繼續

#AI#ai#PromptEngineering

2025/01/16

Learn AI 不 BI

AI說書 - 從0開始 - 297 | 各 Tokenizer 之展示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 295 | 各 Tokenizer 之優勢與安裝及 AI說書 - 從0開始 - 296 | 各 Tokenizer 之展示，我們繼續

#AI#ai#PromptEngineering

2025/01/16

Learn AI 不 BI

AI說書 - 從0開始 - 296 | 各 Tokenizer 之展示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 295 | 各 Tokenizer 之優勢與安裝安裝的各種 Tokenizer，我們來展示其用處： Sentence Toke

#AI#ai#PromptEngineering

2025/01/15

Learn AI 不 BI

AI說書 - 從0開始 - 296 | 各 Tokenizer 之展示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 295 | 各 Tokenizer 之優勢與安裝安裝的各種 Tokenizer，我們來展示其用處： Sentence Toke

#AI#ai#PromptEngineering

2025/01/15

Learn AI 不 BI

AI說書 - 從0開始 - 292 | Tokenizer 重要性範例之展示 3

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。接著展示「etext」及「declaration」兩詞之間的相似度計算結果： word1 = "etext" word2 = "declaration" print(

#AI#ai#PromptEngineering

2025/01/11

Learn AI 不 BI

AI說書 - 從0開始 - 292 | Tokenizer 重要性範例之展示 3

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。接著展示「etext」及「declaration」兩詞之間的相似度計算結果： word1 = "etext" word2 = "declaration" print(

#AI#ai#PromptEngineering

2025/01/11

Learn AI 不 BI

AI說書 - 從0開始 - 288 | Tokenizer 重要性範例之 Embedding 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 287 | Tokenizer 重要性範例之資料準備，接著來執行 Tokenization： sample = open("text

#AI#ai#PromptEngineering

2025/01/06

Learn AI 不 BI

AI說書 - 從0開始 - 288 | Tokenizer 重要性範例之 Embedding 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 287 | Tokenizer 重要性範例之資料準備，接著來執行 Tokenization： sample = open("text

#AI#ai#PromptEngineering

2025/01/06

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News