我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
- 微調 GPT 模型引言:AI說書 - 從0開始 - 229 | 微調 GPT 模型引言
- 微調 GPT 模型的前置步驟:AI說書 - 從0開始 - 230 | 微調 GPT 模型的前置步驟
接著來準備資料集,OpenAI 詳細記錄了資料準備過程:
https://platform.openai.com/docs/guides/fine-tuning/preparing-your-dataset
對於本次微調部分,我們將下載並處理伊曼紐爾·康德撰寫的《純粹理性批判》,本書的內容對於機器和人類來說都具有挑戰性,因此作為資料集使用是令人興奮的,該資料集也不存在版權問題,將資料上傳到 OpenAI 時,請務必驗證版權或隱私問題。
首先安裝必要函式庫:
import nltk
nltk.download('punkt')
from nltk.tokenize import sent_tokenize
import requests
from bs4 import BeautifulSoup
import json
import re