我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
接著下載資料集:
from sklearn.datasets import fetch_20newsgroups
import pandas as pd
import openai
categories = ['rec.sport.baseball', 'rec.sport.hockey']
sports_dataset = fetch_20newsgroups(subset = 'train', shuffle = True, random_state = 42, categories = categories)
再對下載的資料進行上傳作業:

但卻出現以下錯誤:

檔案 sports2_prepared_valid.jsonl 包含 Prompt 和 Completion,我們可以簡單地將它們分別替換為 input_text 和 output_text,這樣做的原因是,儘管 LLMs 通常是生成式 Transformer,它們也可以執行不生成完整內容的判別性(基礎分類)任務,例如生成 Class_A 或 Class_B 這樣的標籤,在這種情況下,使用更通用的「input」和「output」前綴是合理的,因為它們涵蓋了判別性和生成性任務,格式可能會隨著時間改變,但過程依然不變:針對判別性任務的監督學習,設置提示和標籤。