我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
不要忽視 Embedding 作為微調大型語言 Transformer 模型的替代方案,微調需要可靠的資料集、正確的模型配置和硬體資源,創建高品質的資料集需要時間和資源。
本章首先解釋為什麼使用 Embedding Searching 有時可以成為微調的非常有效的替代方案,我們將介紹這種方法的優點和局限性。
然後,我們將了解文本 Embedding 的基礎知識,我們將建立一個程式來讀取檔案、標記,並將其嵌入 Gensim 和 Word2Vec 中,該程式將展示如何分析模型描述並存取單字向量,我們將探索 Genism 的向量空間並顯示單字之間的餘弦相似度,最後,我們將在 Google 的 TensorFlow Projector 中顯示向量空間。
有了這些基本原理,我們將對資料集截止日期之後發生的體育賽事實施問答程序,例如,如果一個模型在您訪問它之前的一年進行了預訓練和微調,那麼它將如何回答有關一年後事件的問題?我們透過基於 Embedding Searching 功能來解決這個問題。
最後,我們將實施 OpenAI Ada 來嵌入 Amazon Fine Food Reviews,我們將準備數據並運行 Ada 嵌入,程序將使用 K-means 聚類來找到集群,我們將使用 t-SNE 顯示集群,系統將準備好詢問 OpenAI Davinci 以查找並描述每個評論集群的主題。