AI說書 - 從0開始 - 339 | Embedding Based Search 資料集整備

AI說書 - 從0開始 - 339 | Embedding Based Search 資料集整備

更新於 發佈於 閱讀時間約 1 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


整理目前手上有的素材:


有了資料集的描述,就可以來進行資料清洗與整備,首先匯入需要的依賴:

import pandas as pd
import tiktoken

from openai.embeddings_utils import get_embedding


再準備 Embedding 模型:

embedding_model = "text-embedding-ada-002"
embedding_encoding = "cl100k_base" # this is the encoding for text-embedding-ada-002
max_tokens = 8000 # the maximum for text-embedding-ada-002 is 8191


注意,text-embedding-ada-002 模型沒有自己的編碼基礎,它依賴 cl100K 基底,cl100K 基礎是一組預先訓練的字詞嵌入,用於初始化 text-embedding-ada-002 模型,該模型學習如何使嵌入適應特定任務。


接著進行資料清洗與整備:

input_datapath = "/content/Reviews.csv"
df = pd.read_csv(input_datapath, index_col = 0)
df = df[["Time", "ProductId", "UserId", "Score", "Summary", "Text"]]
df = df.dropna()
df["combined"] = (
"Title: " + df.Summary.str.strip() + "; Content: " + df.Text.str.strip()
)
df.head(10)


資料格式為:

raw-image


avatar-img
Learn AI 不 BI
219會員
570內容數
這裡將提供: AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹,一起在未來AI的世界擁抱AI技術,不BI。
留言
avatar-img
留言分享你的想法!
Learn AI 不 BI 的其他內容
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 本章的重點在於,原始的 Prompt 匯入 GPT 模型可能效果不好,因此納入 Embedding 資料庫,將此 Prompt 轉成 Embedding,再將此 Emb
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 整理目前手上有的素材: AI說書 - 從0開始 - 338 | Embedding Based Search 資料集描述 AI說書 - 從0開始 - 339 | E
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 整理目前手上有的素材: AI說書 - 從0開始 - 338 | Embedding Based Search 資料集描述 AI說書 - 從0開始 - 339 | E
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 本章的重點在於,原始的 Prompt 匯入 GPT 模型可能效果不好,因此納入 Embedding 資料庫,將此 Prompt 轉成 Embedding,再將此 Emb
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 整理目前手上有的素材: AI說書 - 從0開始 - 338 | Embedding Based Search 資料集描述 AI說書 - 從0開始 - 339 | E
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 整理目前手上有的素材: AI說書 - 從0開始 - 338 | Embedding Based Search 資料集描述 AI說書 - 從0開始 - 339 | E