我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
整理目前手上有的素材:
今天來進行資料清洗作業,首先匯入資料,並濾除 Bad Lines,同時可以檢視一下濾除多少筆的 Bad Lines 資料:
import numpy as np
import pandas as pd
datafile_path = "fine_food_reviews_with_embeddings_1k.csv"
df = pd.read_csv('fine_food_reviews_with_embeddings_1k.csv', on_bad_lines = 'skip')
df_line_count = len(df)
with open('fine_food_reviews_with_embeddings_1k.csv') as f:
total_line_count = sum(1 for _ in enumerate(f))
bad_lines = total_line_count - df_line_count
print(f'Number of bad lines: {bad_lines}')
結果為:
接著進行資料格式轉換,轉換為 NumPy Array:
df["embedding"] = df.embedding.apply(eval).apply(np.array)
matrix = np.vstack(df.embedding.values)
matrix.shape
結果為:
當中 1000 為資料筆數,而 1536 則是特徵數。