我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
我們將建立一個實作 Retrieval Augmented Generation (RAG) 的入門程式,文檔檢索並不是什麼新鮮事,自從幾十年前資料庫查詢出現以來,知識庫就已經存在了,生成式人工智慧也不是什麼新鮮事,RNN 是多年前人工智慧驅動的文字產生器。
考慮到這些因素,我們可以說 RAG 不是一種創新,而是一種改進,彌補了生成式 AI 模型在精確度、訓練資料和反應方面的不足,在某些情況下,它還可以避免對模型進行微調,我們將使用 RAG 改進 GPT 的生成 AI GPT-4 功能。
若需要更深入的 RAG 介紹與實作,可以參閱 自己做免錢Chat GPT吧
先來安裝一些必要的函式庫與基本設定:
try:
import openai
except:
!pip install openai
import openai
from google.colab import drive
drive.mount('/content/drive')
f = open("drive/MyDrive/files/api_key.txt", "r")
API_KEY = f.readline()
f.close()
import os
os.environ['OPENAI_API_KEY'] = API_KEY
openai.api_key = os.getenv("OPENAI_API_KEY")
!pip install ipywidgets
!pip install beautifulsoup4 requests transformers
import requests
from bs4 import BeautifulSoup
from transformers import pipeline