我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
整理目前手上有的素材:
延續 AI說書 - 從0開始 - 339 | Embedding Based Search 資料集整備 主題,今天來執行資料集編碼:
top_n = 1000
df = df.sort_values("Time").tail(top_n * 2)
df.drop("Time", axis = 1, inplace = True)
encoding = tiktoken.get_encoding(embedding_encoding)
df["n_tokens"] = df.combined.apply(lambda x: len(encoding.encode(x)))
df = df[df.n_tokens <= max_tokens].tail(top_n)
當中 df.drop("Time", axis = 1, inplace = True) 的意思是從 df 數據框中刪除名為 Time 的列,具體解釋如下: