我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
本章的重點在於,原始的 Prompt 匯入 GPT 模型可能效果不好,因此納入 Embedding 資料庫,將此 Prompt 轉成 Embedding,再將此 Embedding 與 Embedding 資料庫內的資料進行相似度檢索,從而排序出高相似度者,這些視為重要資訊,最後將原始 Prompt 與這些重要資訊一同匯入 GPT,另一個發想是 Embedding 資料庫可以用 K-Means 作法先做群聚,這些群聚可以用 t-SNE 作法降維進行可視化,於此同時,原始 Prompt 可以先觀察屬於這些群聚中的哪一類,再從這類別中取樣出幾筆資料,這視為重要資訊,最後將原始 Prompt 與這些重要資訊一同匯入 GPT。
從 AI說書 - 從0開始 - 311 | 第十一章引言 到 AI說書 - 從0開始 - 345 | Embedding Based Search 之群聚效果檢視,我們完成書籍:Transformers for Natural Language Processing and Computer Vision, Denis Rothman, 2024 第十一章說明。
以下附上參考項目:
- Gensim’s Word2Vec documentation: https://radimrehurek.com/gensim/models/word2vec.html
- OpenAI’s embedding models: https://platform.openai.com/docs/guides/embeddings/embedding-models
- OpenAI’s pricing page: https://openai.com/pricing#language-models
以下附上額外閱讀項目:
- Dar et al., 2022, Analyzing Transformers in Embedding Space: https://arxiv.org/abs/2209.02535