更新於 2024/10/29閱讀時間約 2 分鐘

AI說書 - 從0開始 - 231 | 微調 GPT 模型的函式庫安裝

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


先列出目前擁有的材料:


接著來準備資料集,OpenAI 詳細記錄了資料準備過程:

https://platform.openai.com/docs/guides/fine-tuning/preparing-your-dataset


對於本次微調部分,我們將下載並處理伊曼紐爾·康德撰寫的《純粹理性批判》,本書的內容對於機器和人類來說都具有挑戰性,因此作為資料集使用是令人興奮的,該資料集也不存在版權問題,將資料上傳到 OpenAI 時,請務必驗證版權或隱私問題。


首先安裝必要函式庫:

import nltk
nltk.download('punkt')
from nltk.tokenize import sent_tokenize
import requests
from bs4 import BeautifulSoup
import json
import re




分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.