我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
我們將更進一步,運行 Embedding 函數,使用 K-Means 聚類演算法建立 Embedding 集群,並要求 Davinci 以文字格式的相應評論來描述每個集群的主題。
Amazon Fine Food Reviews 資料集包含截至 2012 年 10 月用戶撰寫的 568454 條食品評論,評論可以分為正面或負面,評論記錄包含產品 ID、使用者 ID、分數、評論標題(摘要) 和評論正文 (文字)。
我們將自 https://www.kaggle.com/datasets/snap/amazon-fine- food-reviews 下載資料:
!kaggle datasets download -d snap/amazon-fine-food-reviews
然後進行處理:
import zipfile
zip_file_path = '/content/amazon-fine-food-reviews.zip'
csv_file_name = 'Reviews.csv'
with zipfile.ZipFile(zip_file_path, 'r') as zip_ref:
zip_ref.extract(csv_file_name)