如何用 AI 自動生成 10 萬筆訓練資料(Self-Instruct Dataset)

更新 發佈閱讀 6 分鐘

一步一步示範 Self-Instruct(自動生成訓練資料)的方法

這是很多模型(如 OpenAI、Stanford University 研究團隊)提出並實際使用的技巧,可以用一個強模型自動生成大量資料,然後用來微調另一個模型。


一、Self-Instruct 的核心概念

流程其實很簡單:

大模型 (Teacher)

│ 生成 instruction + answer

訓練資料 dataset

│ 微調

小模型 (Student)

例如:

GPT-4 / Claude / DeepSeek

生成 10萬筆資料

微調 Qwen / Llama

二、生成資料的 Prompt

先設計一個 資料生成 prompt

例如:

</>Plain text
請生成一筆訓練資料,格式為 JSON

{
"instruction": "...",
"output": "..."
}

instruction 必須是使用者問題,
output 必須是高品質回答。

主題:中國歷史人物

模型就會生成:

</>JSON
{
"instruction":"安祿山是誰?",
"output":"安祿山是唐朝節度使,後來發動安史之亂。"
}

三、Python 自動生成 Dataset

簡單程式如下:

</>Python
import json
from openai import OpenAI

client = OpenAI()

dataset = []

for i in range(10000):

response = client.responses.create(
model="gpt-4.1",
input="""
生成一筆 JSON 訓練資料:

{
"instruction": "...",
"output": "..."
}

主題:武俠小說
"""
)

text = response.output[0].content[0].text

data = json.loads(text)

dataset.append(data)

with open("dataset.jsonl","w") as f:
for d in dataset:
f.write(json.dumps(d,ensure_ascii=False)+"\n")

結果:

dataset.jsonl

裡面可能有:

10000 行資料

四、生成的資料例子

{"instruction":"介紹華山派","output":"華山派是中國武俠小說中的名門正派之一,以劍法聞名。"}

{"instruction":"寒元真訣是什麼","output":"寒元真訣是一種以寒氣運行經脈的內功心法。"}

{"instruction":"安祿山是誰","output":"安祿山是唐朝胡人將領,後發動安史之亂。"}

五、進階版本(多樣化生成)

為了避免資料太單調,可以隨機主題:

</>Python
topics = [
"武俠人物",
"歷史人物",
"武功招式",
"門派介紹",
"兵器介紹"
]

Prompt:

生成一筆武俠小說訓練資料
主題:{topic}

模型會產生更多樣資料。


六、過濾 Dataset(很重要)

Self-Instruct 會產生很多垃圾資料。

必須過濾:

例如:

</>Python
if len(output) < 10:
skip

if "不知道" in output:
skip

或讓 AI 自己評分:

請給這筆回答品質評分 1-10

只保留 8分以上


七、Self-Instruct Dataset 規模

常見數量:

raw-image

很多開源模型:

50k – 200k

八、Self-Instruct 的真正威力

例如:

原始模型:

Qwen2 7B

微調後:

武俠小說專家 AI

模型會變成:

  • 懂人物
  • 懂門派
  • 懂武功

這叫 Domain Specialization


九、很多人不知道的進階技巧

真正高級的方法是:

讓 AI 自己生成三個欄位

instruction
reasoning
answer

例如:

問題:安祿山為何造反?

reasoning:
安祿山掌握三鎮兵權,與楊國忠衝突……

answer:
因此在755年發動安史之亂。

這樣模型推理能力會更好。


十、完整 Self-Instruct Pipeline

完整流程:

1 設計 prompt
2 AI 生成 100k dataset
3 自動過濾
4 微調 LLM
5 測試
6 再生成資料
7 再微調

這就是 LLM bootstrapping


總結

Self-Instruct 的核心就是:

強模型 → 生成資料 → 訓練弱模型

4090 完全可以做到:

  • 生成 10萬資料
  • 微調 7B 模型
  • 做出自己的 AI







留言
avatar-img
sirius數字沙龍
11會員
250內容數
吃自助火鍋啦!不要客氣,想吃啥,請自行取用!
sirius數字沙龍的其他內容
2026/03/06
這是很多人自己做「私人 AI 助手 / 領域模型」的典型做法。整體分成:模型選擇 → 資料 → 訓練 → 推論部署。 一、硬體條件(RTX 4090) RTX 4090 VRAM:24GB FP16 算力:約 82 TFLOPS 適合:LoRA / QLoRA 微調 能訓練模型大小:
Thumbnail
2026/03/06
這是很多人自己做「私人 AI 助手 / 領域模型」的典型做法。整體分成:模型選擇 → 資料 → 訓練 → 推論部署。 一、硬體條件(RTX 4090) RTX 4090 VRAM:24GB FP16 算力:約 82 TFLOPS 適合:LoRA / QLoRA 微調 能訓練模型大小:
Thumbnail
2026/03/06
示範一個 RTX 4090 用於訓練 LLM「工具調用(Tool Calling)」的資料格式。這種格式比原本的 Python 範例更接近 OpenAI / Llama / DeepSeek / function calling dataset 常見結構。
Thumbnail
2026/03/06
示範一個 RTX 4090 用於訓練 LLM「工具調用(Tool Calling)」的資料格式。這種格式比原本的 Python 範例更接近 OpenAI / Llama / DeepSeek / function calling dataset 常見結構。
Thumbnail
2026/03/06
在之前「學會調用 Calendar API 或查詢數據庫」一文中,將 API 的定義定義在 System Prompt 中範例有如下討論。
Thumbnail
2026/03/06
在之前「學會調用 Calendar API 或查詢數據庫」一文中,將 API 的定義定義在 System Prompt 中範例有如下討論。
Thumbnail
看更多
你可能也想看
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
文章探討AI技術在數學推理、勞動力市場、晶片供應鏈以及地緣政治等領域的最新進展與影響,同時分析硬體市場挑戰、商業模式變革及監管政策趨勢。
Thumbnail
文章探討AI技術在數學推理、勞動力市場、晶片供應鏈以及地緣政治等領域的最新進展與影響,同時分析硬體市場挑戰、商業模式變革及監管政策趨勢。
Thumbnail
國安局於11月16日發出嚴重警告,要求公務機關禁用Deepseek、豆包、文心一言、通義千問、騰訊元寶等五款中國製AI工具。主要風險:違反資安檢測基準、要求存取機敏資訊,以及因中國《國家情報法》法律規範而產生的「結構性風險」,可能導致機敏資料回傳給情報機關。此外,模型在兩岸等敏感議題上存在嚴重偏頗。
Thumbnail
國安局於11月16日發出嚴重警告,要求公務機關禁用Deepseek、豆包、文心一言、通義千問、騰訊元寶等五款中國製AI工具。主要風險:違反資安檢測基準、要求存取機敏資訊,以及因中國《國家情報法》法律規範而產生的「結構性風險」,可能導致機敏資料回傳給情報機關。此外,模型在兩岸等敏感議題上存在嚴重偏頗。
Thumbnail
近年來,ChatGPT快速成為全球熱門的文字生成工具,無論是撰寫文章、擬定策略,甚至創作故事,都展現出強大的語言能力。然而,許多使用者也發現,這款人工智慧在數學運算上經常出錯,為何AI在文字表現出色,卻在數字推理上失準?
Thumbnail
近年來,ChatGPT快速成為全球熱門的文字生成工具,無論是撰寫文章、擬定策略,甚至創作故事,都展現出強大的語言能力。然而,許多使用者也發現,這款人工智慧在數學運算上經常出錯,為何AI在文字表現出色,卻在數字推理上失準?
Thumbnail
2025 年 6 月 10 日,法國新創公司 Mistral AI 正式發布其首款專注於推理的語言模型系列—Magistral,以其透明的思維鏈推理能力、多語言支持以及跨領域應用,成為歐洲 AI 領域領先代表,TN科技筆記接下來將為各位介紹 Magistral 的版本特色以及其對 AI 產業的影響。
Thumbnail
2025 年 6 月 10 日,法國新創公司 Mistral AI 正式發布其首款專注於推理的語言模型系列—Magistral,以其透明的思維鏈推理能力、多語言支持以及跨領域應用,成為歐洲 AI 領域領先代表,TN科技筆記接下來將為各位介紹 Magistral 的版本特色以及其對 AI 產業的影響。
Thumbnail
微軟最新推出的 Phi-4-reasoning 與 Phi-4-reasoning-plus 模型,以僅140億參數的規模,挑戰大型語言模型的效能極限。這兩個模型專注於複雜推理任務,特別在數學、科學、程式設計等STEM領域展現卓越表現。
Thumbnail
微軟最新推出的 Phi-4-reasoning 與 Phi-4-reasoning-plus 模型,以僅140億參數的規模,挑戰大型語言模型的效能極限。這兩個模型專注於複雜推理任務,特別在數學、科學、程式設計等STEM領域展現卓越表現。
Thumbnail
免費增強版 DeepSeek最新更新概述 背景信息 DeepSeek是一款由杭州深度求索人工智能基礎技術研究有限公司開發的AI模型,近年來在全球範圍內引起了廣泛關注。其最新版本DeepSeek V3-0324於2025年3月24日發布,標誌著該模型在編程能力、推理能力和上下文理解等多個方面的顯
Thumbnail
免費增強版 DeepSeek最新更新概述 背景信息 DeepSeek是一款由杭州深度求索人工智能基礎技術研究有限公司開發的AI模型,近年來在全球範圍內引起了廣泛關注。其最新版本DeepSeek V3-0324於2025年3月24日發布,標誌著該模型在編程能力、推理能力和上下文理解等多個方面的顯
Thumbnail
深入了解 AWS 推出的 DeepSeek-R1 模型,結合 Amazon Bedrock 和 SageMaker 平台,助力企業部署生成式 AI 應用,實現高效成本優化與數據安全保障。
Thumbnail
深入了解 AWS 推出的 DeepSeek-R1 模型,結合 Amazon Bedrock 和 SageMaker 平台,助力企業部署生成式 AI 應用,實現高效成本優化與數據安全保障。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News