2024-11-01|閱讀時間 ‧ 約 0 分鐘

AI說書 - 從0開始 - 234 | 微調 GPT 模型的資料集檢查

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


先列出目前擁有的材料:


接著系統會把 JSON 轉換成 JSONL 檔案:


此外 OpenAI 會出現以下提示:


可以透過以下程式偷看一下 JSONL 檔案的內容:

import json

with open('kant_prompts_and_completions_prepared.jsonl', 'r') as f:
lines = f.readlines()

for line in lines[199:300]:
data = json.loads(line)
print(json.dumps(data, indent = 4))


結果為:


注意以下幾點:

  • Prompt 中的「->」
  • Completion 中的「開頭空格」以及「\n」
分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.