AI說書 - 從0開始 - 322 | Embedding 後詞彙的 Cosine 相似度計算

發佈於三分鐘學AI (2)

更新於 2025/02/11發佈於 2025/02/11閱讀時間約 4 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

回顧目前手上有的素材：

載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization
文本處理以降低 Tokenization 負擔：AI說書 - 從0開始 - 315 | 文本處理以降低 Tokenization 負擔
Tokenization 後基本資訊窺探與 Embedding 訓練：AI說書 - 從0開始 - 316 | Tokenization 後基本資訊窺探與 Embedding 訓練
Embedding 模型描述：AI說書 - 從0開始 - 317 | Embedding 模型描述
Embedding 模型描述：AI說書 - 從0開始 - 318 | Embedding 模型描述
檢視 Embedding 是否包含某詞彙：AI說書 - 從0開始 - 319 | 檢視 Embedding 是否包含某詞彙
Embedding 後詞彙相似度計算：AI說書 - 從0開始 - 320 | Embedding 後詞彙相似度計算
Embedding 後詞彙與 ID 映射：AI說書 - 從0開始 - 321 | Embedding 後詞彙與 ID 映射

Embedding 後，兩詞彙間的 Cosine 相似度計算方法為：

import numpy as np 
from gensim import matutils 
import pandas as pd

words = ["method", "reason", "truth", "rightly", "science", "seeking"]

data = []
for i in range(len(words)):
	for j in range(len(words)):
		word1 = words[i] 
		word2 = words[j]
		if word1 not in model.wv or word2 not in model.wv:
			print(f"One or both words ('{word1}', '{word2}') are not in the model's vocabulary.")
			continue
		vec1 = model.wv[word1]
		vec2 = model.wv[word2]
		similarity = np.dot(matutils.unitvec(vec1), matutils.unitvec(vec2))
		distance = 1 - similarity
		data.append({'word1': word1, 'word2': word2, 'distance': distance})
		
df = pd.DataFrame(data) 
display(df)

結果為：

raw-image

當中的 Cosine 相似度計算方法為：

raw-image

其數值將介於 -1 至 1 之間。

#PromptEngineering

#chatgpt怎麼用

Learn AI 不 BI三分鐘學AI (2)AI從0開始-十一章

留言

留言分享你的想法！

Learn AI 不 BI

237會員

810內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

Learn AI 不 BI的其他內容

2025/03/12

AI說書 - 從0開始 - 346 | 第十一章額外閱讀

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。本章的重點在於，原始的 Prompt 匯入 GPT 模型可能效果不好，因此納入 Embedding 資料庫，將此 Prompt 轉成 Embedding，再將此 Emb

2025/03/12

AI說書 - 從0開始 - 346 | 第十一章額外閱讀

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。本章的重點在於，原始的 Prompt 匯入 GPT 模型可能效果不好，因此納入 Embedding 資料庫，將此 Prompt 轉成 Embedding，再將此 Emb

2025/03/10

AI說書 - 從0開始 - 345 | Embedding Based Search 之群聚效果檢視

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。整理目前手上有的素材： AI說書 - 從0開始 - 338 | Embedding Based Search 資料集描述 AI說書 - 從0開始 - 339 | E

2025/03/10

AI說書 - 從0開始 - 345 | Embedding Based Search 之群聚效果檢視

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。整理目前手上有的素材： AI說書 - 從0開始 - 338 | Embedding Based Search 資料集描述 AI說書 - 從0開始 - 339 | E

2025/03/09

AI說書 - 從0開始 - 344 | Embedding Based Search 之 t-SNE 降維

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。整理目前手上有的素材： AI說書 - 從0開始 - 338 | Embedding Based Search 資料集描述 AI說書 - 從0開始 - 339 | E

2025/03/09

AI說書 - 從0開始 - 344 | Embedding Based Search 之 t-SNE 降維

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。整理目前手上有的素材： AI說書 - 從0開始 - 338 | Embedding Based Search 資料集描述 AI說書 - 從0開始 - 339 | E

你可能也想看

Emma 的意識界。

輕鬆賺零用金的祕密 | 蝦皮分潤計畫賺零用金實測成果開箱＋近期敗家好物開箱 😁

透過蝦皮分潤計畫，輕鬆賺取零用金！本文分享5-6月實測心得，包含數據流程、實際收入、平臺優點及注意事項，並推薦高分潤商品，教你如何運用空閒時間創造被動收入。

#蝦皮#行動電源#測試

2025/09/07

Emma 的意識界。

輕鬆賺零用金的祕密 | 蝦皮分潤計畫賺零用金實測成果開箱＋近期敗家好物開箱 😁

透過蝦皮分潤計畫，輕鬆賺取零用金！本文分享5-6月實測心得，包含數據流程、實際收入、平臺優點及注意事項，並推薦高分潤商品，教你如何運用空閒時間創造被動收入。

#蝦皮#行動電源#測試

2025/09/07

好好宅在家

【單身實驗室．蝦皮分潤計畫】藏身蝦皮的植系青屬，為我的北向陽台增添家人。

單身的人有些會養寵物，而我養植物。畢竟寵物離世會傷心，植物沒養好再接再厲就好了~（笑）

#開箱#蝦皮分潤計畫#單身實驗室

2025/09/12

好好宅在家

【單身實驗室．蝦皮分潤計畫】藏身蝦皮的植系青屬，為我的北向陽台增添家人。

單身的人有些會養寵物，而我養植物。畢竟寵物離世會傷心，植物沒養好再接再厲就好了~（笑）

#開箱#蝦皮分潤計畫#單身實驗室

2025/09/12

翰墨飄香的沙龍

補貨小日常｜居家生活用品實測分享，還順便開啟蝦皮分潤計畫小驚喜！

不知你有沒有過這種經驗？衛生紙只剩最後一包、洗衣精倒不出來，或電池突然沒電。這次一次補貨，從電池、衛生紙到洗衣精，還順便分享使用心得。更棒的是，搭配蝦皮分潤計畫，愛用品不僅自己用得安心，分享給朋友還能賺回饋。立即使用推薦碼 X5Q344E，輕鬆上手，隨時隨地賺取分潤！

#衛生紙#洗衣精#居家生活

2025/09/10

翰墨飄香的沙龍

補貨小日常｜居家生活用品實測分享，還順便開啟蝦皮分潤計畫小驚喜！

不知你有沒有過這種經驗？衛生紙只剩最後一包、洗衣精倒不出來，或電池突然沒電。這次一次補貨，從電池、衛生紙到洗衣精，還順便分享使用心得。更棒的是，搭配蝦皮分潤計畫，愛用品不僅自己用得安心，分享給朋友還能賺回饋。立即使用推薦碼 X5Q344E，輕鬆上手，隨時隨地賺取分潤！

#衛生紙#洗衣精#居家生活

2025/09/10

阿Mo的murmur小天地🪄

開箱＋分潤分享｜社畜的療癒小樹洞 🧑‍🎨 iPad 殼 × 蝦皮分潤計畫

身為一個典型的社畜，上班時間被會議、進度、KPI 塞得滿滿，下班後只想要找一個能夠安靜喘口氣的小角落。對我來說，畫畫就是那個屬於自己的小樹洞。無論是胡亂塗鴉，還是慢慢描繪喜歡的插畫人物，那個專注在筆觸和色彩的過程，就像在幫心靈按摩一樣，讓緊繃的神經慢慢鬆開。

#小確幸#iPad#樹洞

2025/09/10

阿Mo的murmur小天地🪄

開箱＋分潤分享｜社畜的療癒小樹洞 🧑‍🎨 iPad 殼 × 蝦皮分潤計畫

身為一個典型的社畜，上班時間被會議、進度、KPI 塞得滿滿，下班後只想要找一個能夠安靜喘口氣的小角落。對我來說，畫畫就是那個屬於自己的小樹洞。無論是胡亂塗鴉，還是慢慢描繪喜歡的插畫人物，那個專注在筆觸和色彩的過程，就像在幫心靈按摩一樣，讓緊繃的神經慢慢鬆開。

#小確幸#iPad#樹洞

2025/09/10

Learn AI 不 BI

AI說書 - 從0開始 - 325 | Embedding 後透過 TensorFlow Projector 視覺化

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材： AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization AI說書 - 從0開始 - 315 | 文本處理以降低 T

#AI#ai#PromptEngineering

2025/02/15

Learn AI 不 BI

AI說書 - 從0開始 - 325 | Embedding 後透過 TensorFlow Projector 視覺化

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材： AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization AI說書 - 從0開始 - 315 | 文本處理以降低 T

#AI#ai#PromptEngineering

2025/02/15

Learn AI 不 BI

AI說書 - 從0開始 - 324 | Embedding 後透過 TensorFlow Projector 視覺化

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材： AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization AI說書 - 從0開始 - 315 | 文本處理以降低 T

#AI#ai#PromptEngineering

2025/02/14

Learn AI 不 BI

AI說書 - 從0開始 - 324 | Embedding 後透過 TensorFlow Projector 視覺化

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材： AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization AI說書 - 從0開始 - 315 | 文本處理以降低 T

#AI#ai#PromptEngineering

2025/02/14

Learn AI 不 BI

AI說書 - 從0開始 - 322 | Embedding 後詞彙的 Cosine 相似度計算

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/11

Learn AI 不 BI

AI說書 - 從0開始 - 322 | Embedding 後詞彙的 Cosine 相似度計算

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/11

Learn AI 不 BI

AI說書 - 從0開始 - 321 | Embedding 後詞彙與 ID 映射

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/10

Learn AI 不 BI

AI說書 - 從0開始 - 321 | Embedding 後詞彙與 ID 映射

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/10

Learn AI 不 BI

AI說書 - 從0開始 - 320 | Embedding 後詞彙相似度計算

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/09

Learn AI 不 BI

AI說書 - 從0開始 - 320 | Embedding 後詞彙相似度計算

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/09

Learn AI 不 BI

AI說書 - 從0開始 - 319 | 檢視 Embedding 是否包含某詞彙

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/08

Learn AI 不 BI

AI說書 - 從0開始 - 319 | 檢視 Embedding 是否包含某詞彙

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/08

Learn AI 不 BI

AI說書 - 從0開始 - 318 | Embedding 模型描述

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/07

Learn AI 不 BI

AI說書 - 從0開始 - 318 | Embedding 模型描述

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/07

Learn AI 不 BI

AI說書 - 從0開始 - 316 | Tokenization 後基本資訊窺探與 Embedding 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/04

Learn AI 不 BI

AI說書 - 從0開始 - 316 | Tokenization 後基本資訊窺探與 Embedding 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/04

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News