我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
延續 AI說書 - 從0開始 - 339 | Embedding Based Search 資料集整備 主題,今天來執行資料集編碼:
top_n = 1000
df = df.sort_values("Time").tail(top_n * 2)
df.drop("Time", axis = 1, inplace = True)
encoding = tiktoken.get_encoding(embedding_encoding)
df["n_tokens"] = df.combined.apply(lambda x: len(encoding.encode(x)))
df = df[df.n_tokens <= max_tokens].tail(top_n)
當中 df.drop("Time", axis = 1, inplace = True) 的意思是從 df 數據框中刪除名為 Time 的列,具體解釋如下:
- "Time":這是你想要刪除的列名
- axis = 1:表示操作的對象是列 (axis = 0 表示行,axis = 1 表示列)
- inplace = True:表示直接在原數據框 df 上進行操作,而不返回一個新的數據框,如果 inplace = False,則操作不會影響原數據框,而是返回一個刪除了 "Time" 列的新數據框