我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
先列出目前擁有的材料:
接著來準備資料集,OpenAI 詳細記錄了資料準備過程:
https://platform.openai.com/docs/guides/fine-tuning/preparing-your-dataset
對於本次微調部分,我們將下載並處理伊曼紐爾·康德撰寫的《純粹理性批判》,本書的內容對於機器和人類來說都具有挑戰性,因此作為資料集使用是令人興奮的,該資料集也不存在版權問題,將資料上傳到 OpenAI 時,請務必驗證版權或隱私問題。
首先安裝必要函式庫:
import nltk
nltk.download('punkt')
from nltk.tokenize import sent_tokenize
import requests
from bs4 import BeautifulSoup
import json
import re