AI說書 - 從0開始 - 288 | Tokenizer 重要性範例之 Embedding 訓練

發佈於三分鐘學AI (2)

2025/01/06 更新2025/01/06 發佈閱讀 3 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

延續 AI說書 - 從0開始 - 287 | Tokenizer 重要性範例之資料準備，接著來執行 Tokenization：

sample = open("text.txt", "r")
s = sample.read()

f = s.replace("\n", " ")
data = []

for i in sent_tokenize(f):
	temp = []
	for j in word_tokenize(i):
		temp.append(j.lower())
	data.append(temp)
	
	
# Creating Skip Gram model
model2 = gensim.models.Word2Vec(data, min_count = 1, vector_size = 512, window = 5, sg = 1)
print(model2)

window = 5 限制輸入句子中當前單字和預測單字之間的距離，結果為：

raw-image

為了要檢視效果好壞，我們撰寫一隻計算 Cosine 相似度的程式：

def similarity(word1, word2):
	cosine = False
	try:
		a = model2[word1]
		cosine = True
	except KeyError:
		print(word1, ":[unk] key not found in dictionary")
	
	try:
		b = model2[word2]
	except KeyError:
		cosine = False
		print(word2, ":[unk] key not found in dictionary")
	
	if(cosine == True):
		dot = np.dot(a, b)
		norma = np.linalg.norm(a)
		normb = np.linalg.norm(b)
		cos = dot / (norma * normb)
		
		aa = a.reshape(1,512)
		ba = b.reshape(1,512)
		cos_lib = cosine_similarity(aa, ba)
	if(cosine == False):
		cos_lib = 0
	return cos_lib

#PromptEngineering

#chatgpt怎麼用

Learn AI 不 BI三分鐘學AI (2)AI從0開始-第十章

留言

留言分享你的想法！

Learn AI 不 BI

246會員

991內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

Learn AI 不 BI的其他內容

2025/01/29

AI說書 - 從0開始 - 308 | 第十章額外閱讀

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在本章中，我們測量了 Tokenization 對 Transformer 模型後續層的影響，Transformer 模型只能關注堆疊的嵌入層和位置編碼子層中的 Tok

2025/01/29

AI說書 - 從0開始 - 308 | 第十章額外閱讀

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在本章中，我們測量了 Tokenization 對 Transformer 模型後續層的影響，Transformer 模型只能關注堆疊的嵌入層和位置編碼子層中的 Tok

2025/01/28

AI說書 - 從0開始 - 307 | Token ID 映射品質管控

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。想要控管 Token ID 映射的品質，有鑑於此，先定義，先定義 Tokenizer： model_name = 'bert-base-uncased' token

2025/01/28

AI說書 - 從0開始 - 307 | Token ID 映射品質管控

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。想要控管 Token ID 映射的品質，有鑑於此，先定義，先定義 Tokenizer： model_name = 'bert-base-uncased' token

2025/01/27

AI說書 - 從0開始 - 306 | Token ID 映射顯示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 304 | WordPiece Tokenization 介紹與偵測講 WordPiece Tokenizer，而 AI說書 - 從

2025/01/27

AI說書 - 從0開始 - 306 | Token ID 映射顯示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 304 | WordPiece Tokenization 介紹與偵測講 WordPiece Tokenizer，而 AI說書 - 從

你可能也想看

Amanda的小世界

蝦皮雙12購物節與蝦皮分潤計畫：購物分享，創造額外的被動收入

作者分享自己曾在蝦皮購買的好物，與介紹蝦皮雙12購物節的優惠活動，以及自己打算入手的商品，也詳細說明如何透過「蝦皮分潤計畫」創造額外的被動收入，鼓勵讀者一同參與。

#蝦皮#蝦皮分潤計畫#蝦皮購物

2025/12/04

Amanda的小世界

蝦皮雙12購物節與蝦皮分潤計畫：購物分享，創造額外的被動收入

作者分享自己曾在蝦皮購買的好物，與介紹蝦皮雙12購物節的優惠活動，以及自己打算入手的商品，也詳細說明如何透過「蝦皮分潤計畫」創造額外的被動收入，鼓勵讀者一同參與。

#蝦皮#蝦皮分潤計畫#蝦皮購物

2025/12/04

🎁 聖誕交換禮物攻略｜Ruby的蝦皮購物開箱＆「蝦皮雙12購物清單」！ 🎅

交換禮物總是讓人又愛又怕？Ruby整理蝦皮500元內必買清單，從養生茶包、心靈牌卡到可愛環保杯、公益零錢包，送禮自用兩相宜。同時分享「蝦皮分潤計畫」教學，購買好物的同時還能賺零用錢，雙12購物攻略一次看！

#蝦皮分潤計畫#蝦皮1212#蝦皮免運

2025/12/06

🎁 聖誕交換禮物攻略｜Ruby的蝦皮購物開箱＆「蝦皮雙12購物清單」！ 🎅

交換禮物總是讓人又愛又怕？Ruby整理蝦皮500元內必買清單，從養生茶包、心靈牌卡到可愛環保杯、公益零錢包，送禮自用兩相宜。同時分享「蝦皮分潤計畫」教學，購買好物的同時還能賺零用錢，雙12購物攻略一次看！

#蝦皮分潤計畫#蝦皮1212#蝦皮免運

2025/12/06

亭安 Ann Lin 的心靈食堂

【商業合作】蝦皮雙12購物分享：冬季養生必備艾灸罐與生活好物推薦

冬天到了，又到了我最愛窩在家網購的季節！從原本對網拍沒興趣，到現在成為蝦皮的忠實用戶，這個轉變連我自己都覺得有趣。這次趁著蝦皮雙12活動，想跟大家分享我最近入手的冬季養生好物——艾灸罐，還有其他實用的生活小物。文末也會介紹蝦皮分潤計畫，讓常網購的你，也能把購物經驗變成額外收入！

#蝦皮分潤計畫#蝦皮1212#蝦皮免運

2025/12/05

亭安 Ann Lin 的心靈食堂

【商業合作】蝦皮雙12購物分享：冬季養生必備艾灸罐與生活好物推薦

冬天到了，又到了我最愛窩在家網購的季節！從原本對網拍沒興趣，到現在成為蝦皮的忠實用戶，這個轉變連我自己都覺得有趣。這次趁著蝦皮雙12活動，想跟大家分享我最近入手的冬季養生好物——艾灸罐，還有其他實用的生活小物。文末也會介紹蝦皮分潤計畫，讓常網購的你，也能把購物經驗變成額外收入！

#蝦皮分潤計畫#蝦皮1212#蝦皮免運

2025/12/05

Learn AI 不 BI

AI說書 - 從0開始 - 321 | Embedding 後詞彙與 ID 映射

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/10

Learn AI 不 BI

AI說書 - 從0開始 - 321 | Embedding 後詞彙與 ID 映射

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/10

Learn AI 不 BI

AI說書 - 從0開始 - 320 | Embedding 後詞彙相似度計算

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/09

Learn AI 不 BI

AI說書 - 從0開始 - 320 | Embedding 後詞彙相似度計算

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/09

Learn AI 不 BI

AI說書 - 從0開始 - 319 | 檢視 Embedding 是否包含某詞彙

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/08

Learn AI 不 BI

AI說書 - 從0開始 - 319 | 檢視 Embedding 是否包含某詞彙

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/08

Learn AI 不 BI

AI說書 - 從0開始 - 318 | Embedding 模型描述

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/07

Learn AI 不 BI

AI說書 - 從0開始 - 318 | Embedding 模型描述

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/07

Learn AI 不 BI

AI說書 - 從0開始 - 316 | Tokenization 後基本資訊窺探與 Embedding 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/04

Learn AI 不 BI

AI說書 - 從0開始 - 316 | Tokenization 後基本資訊窺探與 Embedding 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/04

Learn AI 不 BI

AI說書 - 從0開始 - 298 | 各 Tokenizer 之展示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 295 | 各 Tokenizer 之優勢與安裝、AI說書 - 從0開始 - 296 | 各 Tokenizer 之展示、AI說書 -

#AI#ai#PromptEngineering

2025/01/17

Learn AI 不 BI

AI說書 - 從0開始 - 298 | 各 Tokenizer 之展示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 295 | 各 Tokenizer 之優勢與安裝、AI說書 - 從0開始 - 296 | 各 Tokenizer 之展示、AI說書 -

#AI#ai#PromptEngineering

2025/01/17

Learn AI 不 BI

AI說書 - 從0開始 - 297 | 各 Tokenizer 之展示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 295 | 各 Tokenizer 之優勢與安裝及 AI說書 - 從0開始 - 296 | 各 Tokenizer 之展示，我們繼續

#AI#ai#PromptEngineering

2025/01/16

Learn AI 不 BI

AI說書 - 從0開始 - 297 | 各 Tokenizer 之展示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 295 | 各 Tokenizer 之優勢與安裝及 AI說書 - 從0開始 - 296 | 各 Tokenizer 之展示，我們繼續

#AI#ai#PromptEngineering

2025/01/16

Learn AI 不 BI

AI說書 - 從0開始 - 296 | 各 Tokenizer 之展示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 295 | 各 Tokenizer 之優勢與安裝安裝的各種 Tokenizer，我們來展示其用處： Sentence Toke

#AI#ai#PromptEngineering

2025/01/15

Learn AI 不 BI

AI說書 - 從0開始 - 296 | 各 Tokenizer 之展示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 295 | 各 Tokenizer 之優勢與安裝安裝的各種 Tokenizer，我們來展示其用處： Sentence Toke

#AI#ai#PromptEngineering

2025/01/15

Learn AI 不 BI

AI說書 - 從0開始 - 288 | Tokenizer 重要性範例之 Embedding 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 287 | Tokenizer 重要性範例之資料準備，接著來執行 Tokenization： sample = open("text

#AI#ai#PromptEngineering

2025/01/06

Learn AI 不 BI

AI說書 - 從0開始 - 288 | Tokenizer 重要性範例之 Embedding 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 287 | Tokenizer 重要性範例之資料準備，接著來執行 Tokenization： sample = open("text

#AI#ai#PromptEngineering

2025/01/06

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News