AI說書 - 從0開始 - 316 | Tokenization 後基本資訊窺探與 Embedding 訓練

Learn AI 不 BI

AI說書 - 從0開始 - 316 | Tokenization 後基本資訊窺探與 Embedding 訓練

發佈於三分鐘學AI (2)

更新於 2025/02/04發佈於 2025/02/04閱讀時間約 3 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

回顧目前手上有的素材：

載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization
文本處理以降低 Tokenization 負擔：AI說書 - 從0開始 - 315 | 文本處理以降低 Tokenization 負擔

今天來探討 Tokenization 後的基本資訊窺探：

unique_tokens = set(tokens)
print(len(unique_tokens))
print(unique_tokens)

結果為：

raw-image

raw-image

接著進行 Embedding 轉換：

from gensim.models import Word2Vec
model = Word2Vec([tokens], compute_loss = True, vector_size = 300, min_count = 1)
model.save("descartes_word2vec.model")

關鍵原文為：

Vocabulary is a list of all the unique words the model has learned from. Each word is related to a specific index in the model’s embedding matrix
Word vectors (embeddings) are the actual word vectors the model learns during training, stored in a matrix in which each row represents a word in the vocabulary
The saved model doesn’t include the original training data (the text you used to train it). It only saves what it learned in the data (word vectors), not the data itself

#PromptEngineering

#chatgpt怎麼用

Learn AI 不 BI三分鐘學AI (2)AI從0開始-十一章

Learn AI 不 BI

219會員

571內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

留言

留言分享你的想法！

Learn AI 不 BI 的其他內容

AI說書 - 從0開始 - 346 | 第十一章額外閱讀

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。本章的重點在於，原始的 Prompt 匯入 GPT 模型可能效果不好，因此納入 Embedding 資料庫，將此 Prompt 轉成 Embedding，再將此 Emb

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 345 | Embedding Based Search 之群聚效果檢視

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。整理目前手上有的素材： AI說書 - 從0開始 - 338 | Embedding Based Search 資料集描述 AI說書 - 從0開始 - 339 | E

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 344 | Embedding Based Search 之 t-SNE 降維

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。整理目前手上有的素材： AI說書 - 從0開始 - 338 | Embedding Based Search 資料集描述 AI說書 - 從0開始 - 339 | E

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 346 | 第十一章額外閱讀

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。本章的重點在於，原始的 Prompt 匯入 GPT 模型可能效果不好，因此納入 Embedding 資料庫，將此 Prompt 轉成 Embedding，再將此 Emb

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 345 | Embedding Based Search 之群聚效果檢視

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。整理目前手上有的素材： AI說書 - 從0開始 - 338 | Embedding Based Search 資料集描述 AI說書 - 從0開始 - 339 | E

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 344 | Embedding Based Search 之 t-SNE 降維

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。整理目前手上有的素材： AI說書 - 從0開始 - 338 | Embedding Based Search 資料集描述 AI說書 - 從0開始 - 339 | E

#AI #ai #PromptEngineering