我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
- 微調 GPT 模型引言:AI說書 - 從0開始 - 229 | 微調 GPT 模型引言
- 微調 GPT 模型的前置步驟:AI說書 - 從0開始 - 230 | 微調 GPT 模型的前置步驟
- 微調 GPT 模型的函式庫安裝:AI說書 - 從0開始 - 231 | 微調 GPT 模型的函式庫安裝
- 微調 GPT 模型的資料集準備:AI說書 - 從0開始 - 232 | 微調 GPT 模型的資料集準備
- 微調 GPT 模型的資料集檢查:AI說書 - 從0開始 - 233 | 微調 GPT 模型的資料集檢查
接著系統會把 JSON 轉換成 JSONL 檔案:

此外 OpenAI 會出現以下提示:

可以透過以下程式偷看一下 JSONL 檔案的內容:
import json
with open('kant_prompts_and_completions_prepared.jsonl', 'r') as f:
lines = f.readlines()
for line in lines[199:300]:
data = json.loads(line)
print(json.dumps(data, indent = 4))
結果為:

注意以下幾點:
- Prompt 中的「->」
- Completion 中的「開頭空格」以及「\n」