AI說書 - 從0開始 - 338 | Embedding Based Search 資料集描述

2025/03/02 更新2025/03/02 發佈閱讀 1 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

我們將更進一步，運行 Embedding 函數，使用 K-Means 聚類演算法建立 Embedding 集群，並要求 Davinci 以文字格式的相應評論來描述每個集群的主題。

Amazon Fine Food Reviews 資料集包含截至 2012 年 10 月用戶撰寫的 568454 條食品評論，評論可以分為正面或負面，評論記錄包含產品 ID、使用者 ID、分數、評論標題(摘要) 和評論正文 (文字)。

我們將自 https://www.kaggle.com/datasets/snap/amazon-fine- food-reviews 下載資料：

!kaggle datasets download -d snap/amazon-fine-food-reviews

然後進行處理：

import zipfile

zip_file_path = '/content/amazon-fine-food-reviews.zip'
csv_file_name = 'Reviews.csv'

with zipfile.ZipFile(zip_file_path, 'r') as zip_ref:
    zip_ref.extract(csv_file_name)

Learn AI 不 BI三分鐘學AI (2)AI從0開始-十一章

留言

留言分享你的想法！

Learn AI 不 BI

240會員

905內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

Learn AI 不 BI的其他內容

2025/03/12

AI說書 - 從0開始 - 346 | 第十一章額外閱讀

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。本章的重點在於，原始的 Prompt 匯入 GPT 模型可能效果不好，因此納入 Embedding 資料庫，將此 Prompt 轉成 Embedding，再將此 Emb

2025/03/12

AI說書 - 從0開始 - 346 | 第十一章額外閱讀

2025/03/10

AI說書 - 從0開始 - 345 | Embedding Based Search 之群聚效果檢視

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。整理目前手上有的素材： AI說書 - 從0開始 - 338 | Embedding Based Search 資料集描述 AI說書 - 從0開始 - 339 | E

2025/03/10

AI說書 - 從0開始 - 345 | Embedding Based Search 之群聚效果檢視

2025/03/09

AI說書 - 從0開始 - 344 | Embedding Based Search 之 t-SNE 降維

2025/03/09

AI說書 - 從0開始 - 344 | Embedding Based Search 之 t-SNE 降維

看更多

你可能也想看

方格子 vocus 官方沙龍

線上街訪直擊！雙 11 購物車大公開！

雙11於許多人而言，不只是單純的折扣狂歡，更是行事曆裡預定的，對美好生活的憧憬。錢錢沒有不見，它變成了快樂，跟讓臥房、辦公桌、每天早晨的咖啡香升級的樣子！這次格編突擊辦公室，也邀請 vocus「野格團」創作者分享掀開蝦皮購物車的簾幕，「加入購物車」的瞬間，藏著哪些靈感，或是對美好生活的想像？

#vocusforBusiness#雙11#蝦皮分潤計畫

2025/10/28

方格子 vocus 官方沙龍

線上街訪直擊！雙 11 購物車大公開！

#vocusforBusiness#雙11#蝦皮分潤計畫

2025/10/28

Learn AI 不 BI

AI說書 - 從0開始 - 105 | AI 資料準備

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。目前我們已經有資料集在 AI說書 - 從0開始 - 103 ，必要的清理函數在 AI說書 - 從0開始 - 104 ，現在把它們湊在一起，如下： # load Eng

#AI#ai#PromptEngineering

2024/07/27

Learn AI 不 BI

AI說書 - 從0開始 - 105 | AI 資料準備

#AI#ai#PromptEngineering

2024/07/27

Learn AI 不 BI

AI說書 - 從0開始 - 66

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。先做個總回顧： Transformer 架構總覽：AI說書 - 從0開始 - 39 Attention 意圖說明：AI說書 - 從0開始 - 40 Transfo

#AI#ai#PositionalEncoding

2024/06/29

Learn AI 不 BI

AI說書 - 從0開始 - 66

#AI#ai#PositionalEncoding

2024/06/29

Learn AI 不 BI

AI說書 - 從0開始 - 59

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。目前我們已經完成： Single-Head Attention 數學說明：AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明：AI

#AI#ai#PromptEngineering

2024/06/28

Learn AI 不 BI

AI說書 - 從0開始 - 59

#AI#ai#PromptEngineering

2024/06/28

Learn AI 不 BI

AI說書 - 從0開始 - 58

#AI#ai#PromptEngineering

2024/06/27

Learn AI 不 BI

AI說書 - 從0開始 - 58

#AI#ai#PromptEngineering

2024/06/27

Learn AI 不 BI

AI說書 - 從0開始 - 57

#AI#ai#PromptEngineering

2024/06/27

Learn AI 不 BI

AI說書 - 從0開始 - 57

#AI#ai#PromptEngineering

2024/06/27

Learn AI 不 BI

AI說書 - 從0開始 - 55

#AI#ai#PromptEngineering

2024/06/27

Learn AI 不 BI

AI說書 - 從0開始 - 55

#AI#ai#PromptEngineering

2024/06/27

Learn AI 不 BI

AI說書 - 從0開始 - 51

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。講完 Transformer 之 Encoder 架構中的 Embedding 與 Positional Encoding 部分，現在進入 Multi-Head Att

#AI#ai#PromptEngineering

2024/06/26

Learn AI 不 BI

AI說書 - 從0開始 - 51

#AI#ai#PromptEngineering

2024/06/26

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News