方格子 vocus

如何用 AI 自動生成 10 萬筆訓練資料（Self-Instruct Dataset）

JH Young

發佈於滴咕雞

2026/03/06 更新2026/03/06 發佈閱讀 6 分鐘

一步一步示範 Self-Instruct（自動生成訓練資料）的方法。

這是很多模型（如 OpenAI、Stanford University 研究團隊）提出並實際使用的技巧，可以用一個強模型自動生成大量資料，然後用來微調另一個模型。

一、Self-Instruct 的核心概念

流程其實很簡單：

大模型 (Teacher)
        │
        │ 生成 instruction + answer
        ▼
訓練資料 dataset
        │
        │ 微調
        ▼
小模型 (Student)

例如：

GPT-4 / Claude / DeepSeek
          ↓
生成 10萬筆資料
          ↓
微調 Qwen / Llama

二、生成資料的 Prompt

先設計一個 資料生成 prompt。

例如：

</>Plain text
請生成一筆訓練資料，格式為 JSON：

{
 "instruction": "...",
 "output": "..."
}

instruction 必須是使用者問題，
output 必須是高品質回答。

主題：中國歷史人物

模型就會生成：

</>JSON
{
 "instruction":"安祿山是誰？",
 "output":"安祿山是唐朝節度使，後來發動安史之亂。"
}

三、Python 自動生成 Dataset

簡單程式如下：

</>Python
import json
from openai import OpenAI

client = OpenAI()

dataset = []

for i in range(10000):

    response = client.responses.create(
        model="gpt-4.1",
        input="""
生成一筆 JSON 訓練資料：

{
 "instruction": "...",
 "output": "..."
}

主題：武俠小說
"""
    )

    text = response.output[0].content[0].text

    data = json.loads(text)

    dataset.append(data)

with open("dataset.jsonl","w") as f:
    for d in dataset:
        f.write(json.dumps(d,ensure_ascii=False)+"\n")

結果：

dataset.jsonl

裡面可能有：

10000 行資料

四、生成的資料例子

{"instruction":"介紹華山派","output":"華山派是中國武俠小說中的名門正派之一，以劍法聞名。"}

{"instruction":"寒元真訣是什麼","output":"寒元真訣是一種以寒氣運行經脈的內功心法。"}

{"instruction":"安祿山是誰","output":"安祿山是唐朝胡人將領，後發動安史之亂。"}

五、進階版本（多樣化生成）

為了避免資料太單調，可以隨機主題：

</>Python
topics = [
"武俠人物",
"歷史人物",
"武功招式",
"門派介紹",
"兵器介紹"
]

Prompt：

生成一筆武俠小說訓練資料
主題：{topic}

模型會產生更多樣資料。

六、過濾 Dataset（很重要）

Self-Instruct 會產生很多垃圾資料。

必須過濾：

例如：

</>Python
if len(output) < 10:
    skip

if "不知道" in output:
    skip

或讓 AI 自己評分：

請給這筆回答品質評分 1-10

只保留 8分以上。

七、Self-Instruct Dataset 規模

常見數量：

很多開源模型：

50k – 200k

八、Self-Instruct 的真正威力

例如：

原始模型：

Qwen2 7B

微調後：

武俠小說專家 AI

模型會變成：

懂人物
懂門派
懂武功

這叫 Domain Specialization。

九、很多人不知道的進階技巧

真正高級的方法是：

讓 AI 自己生成三個欄位

instruction
reasoning
answer

例如：

問題：安祿山為何造反？

reasoning：
安祿山掌握三鎮兵權，與楊國忠衝突……

answer：
因此在755年發動安史之亂。

這樣模型推理能力會更好。

十、完整 Self-Instruct Pipeline

完整流程：

1 設計 prompt
2 AI 生成 100k dataset
3 自動過濾
4 微調 LLM
5 測試
6 再生成資料
7 再微調

這就是 LLM bootstrapping。

✅ 總結

Self-Instruct 的核心就是：

強模型 → 生成資料 → 訓練弱模型

4090 完全可以做到：

生成 10萬資料
微調 7B 模型
做出自己的 AI

留言

sirius數字沙龍

16會員

396內容數

吃自助火鍋啦！不要客氣，想吃啥，請自行取用！

sirius數字沙龍的其他內容

2026/03/06

用一張 RTX 4090 就能跑的完整 LLM 微調專案架構

這是很多人自己做「私人 AI 助手 / 領域模型」的典型做法。整體分成：模型選擇 → 資料 → 訓練 → 推論部署。一、硬體條件（RTX 4090） RTX 4090 VRAM：24GB FP16 算力：約 82 TFLOPS 適合：LoRA / QLoRA 微調能訓練模型大小：

2026/03/06

用一張 RTX 4090 就能跑的完整 LLM 微調專案架構

2026/03/06

示範 4090 訓練 LLM Tool-Calling 的 dataset 格式

示範一個 RTX 4090 用於訓練 LLM「工具調用（Tool Calling）」的資料格式。這種格式比原本的 Python 範例更接近 OpenAI / Llama / DeepSeek / function calling dataset 常見結構。

2026/03/06

示範 4090 訓練 LLM Tool-Calling 的 dataset 格式

2026/03/06

Data Collator 函數呼叫範例討論

在之前「學會調用 Calendar API 或查詢數據庫」一文中，將 API 的定義定義在 System Prompt 中範例有如下討論。

2026/03/06

Data Collator 函數呼叫範例討論

在之前「學會調用 Calendar API 或查詢數據庫」一文中，將 API 的定義定義在 System Prompt 中範例有如下討論。

看更多

你可能也想看

TN科技筆記(TechNotes)的沙龍

Phi-4-reasoning 與 Phi-4-reasoning-plus：高效能小模型的卓越表現

微軟最新推出的 Phi-4-reasoning 與 Phi-4-reasoning-plus 模型，以僅140億參數的規模，挑戰大型語言模型的效能極限。這兩個模型專注於複雜推理任務，特別在數學、科學、程式設計等STEM領域展現卓越表現。

#AI#生成式AI#人工智慧

2025/05/01

TN科技筆記(TechNotes)的沙龍

Phi-4-reasoning 與 Phi-4-reasoning-plus：高效能小模型的卓越表現

#AI#生成式AI#人工智慧

2025/05/01

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

AI.ESG.數位轉型顧問沈重宗

免費增強版 DeepSeek最新更新概述背景信息 DeepSeek是一款由杭州深度求索人工智能基礎技術研究有限公司開發的AI模型，近年來在全球範圍內引起了廣泛關注。其最新版本DeepSeek V3-0324於2025年3月24日發布，標誌著該模型在編程能力、推理能力和上下文理解等多個方面的顯

2025/03/25

2025/03/25

經濟部產業人才能力鑑定-iPAS- AI 應用規劃師能力鑑定介紹

面對AI科技發展日新月異，經濟部於2025年推出「AI應用規劃師」產業人才能力鑑定（iPAS），由經濟部核發能力鑑定證書

#方格新手#人工智慧#AI

2025/02/21

TN科技筆記(TechNotes)的沙龍

經濟部產業人才能力鑑定-iPAS- AI 應用規劃師能力鑑定介紹

面對AI科技發展日新月異，經濟部於2025年推出「AI應用規劃師」產業人才能力鑑定（iPAS），由經濟部核發能力鑑定證書

#方格新手#人工智慧#AI

2025/02/21

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

背景：從冷門配角到市場主線，算力與電力被重新定價小P從2008進入股市，每一個時期的投資亮點都不同，記得2009蘋果手機剛上市，當時蘋果只要在媒體上提到哪一間供應鏈，隔天股價就有驚人的表現，當時光學鏡頭非常熱門，因為手機第一次搭上鏡頭可以拍照，也造就傳統相機廠的殞落，如今手機已經全面普及，題

#AI#算力#電力

2026/04/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

#AI#算力#電力

2026/04/11

科技碎碎念

DeepSeekMath-V2超越人類！數學推理和定理證明進入AI時代？ #122

文章探討AI技術在數學推理、勞動力市場、晶片供應鏈以及地緣政治等領域的最新進展與影響，同時分析硬體市場挑戰、商業模式變革及監管政策趨勢。

#生成#人工智慧#DeepSeek

2025/11/30

科技碎碎念

DeepSeekMath-V2超越人類！數學推理和定理證明進入AI時代？ #122

文章探討AI技術在數學推理、勞動力市場、晶片供應鏈以及地緣政治等領域的最新進展與影響，同時分析硬體市場挑戰、商業模式變革及監管政策趨勢。

#生成#人工智慧#DeepSeek

2025/11/30

Han的沙龍

為何ChatGPT數學表現有限？專家解析AI生成式智慧與演算法差異

近年來，ChatGPT快速成為全球熱門的文字生成工具，無論是撰寫文章、擬定策略，甚至創作故事，都展現出強大的語言能力。然而，許多使用者也發現，這款人工智慧在數學運算上經常出錯，為何AI在文字表現出色，卻在數字推理上失準？

#ChatGPT#AI#生成

2025/10/27

Han的沙龍

為何ChatGPT數學表現有限？專家解析AI生成式智慧與演算法差異

#ChatGPT#AI#生成

2025/10/27

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》，由臺灣劇團「晃晃跨幅町」製作，本文將以從舞台符號、聲音與表演調度切入，討論海妲・蓋柏樂在父權社會結構下的困境，並結合榮格心理學與馮．法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析，理解女人何以走向精神性的操控、毀滅與死亡。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

勤英科技的沙龍

AWS 上線 DeepSeek-R1 系列模型：企業生成式 AI 的新突破

深入了解 AWS 推出的 DeepSeek-R1 模型，結合 Amazon Bedrock 和 SageMaker 平台，助力企業部署生成式 AI 應用，實現高效成本優化與數據安全保障。

2025/02/25

勤英科技的沙龍

AWS 上線 DeepSeek-R1 系列模型：企業生成式 AI 的新突破

深入了解 AWS 推出的 DeepSeek-R1 模型，結合 Amazon Bedrock 和 SageMaker 平台，助力企業部署生成式 AI 應用，實現高效成本優化與數據安全保障。

2025/02/25

TN科技筆記(TechNotes)的沙龍

Mistral AI 推出 Magistral：歐洲首款推理模型挑戰全球 AI 巨頭

2025 年 6 月 10 日，法國新創公司 Mistral AI 正式發布其首款專注於推理的語言模型系列—Magistral，以其透明的思維鏈推理能力、多語言支持以及跨領域應用，成為歐洲 AI 領域領先代表，TN科技筆記接下來將為各位介紹 Magistral 的版本特色以及其對 AI 產業的影響。

#人工智慧#AI#科技公司

2025/06/12

TN科技筆記(TechNotes)的沙龍

Mistral AI 推出 Magistral：歐洲首款推理模型挑戰全球 AI 巨頭

#人工智慧#AI#科技公司

2025/06/12

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

楊老師AI365 | 生成式AI職場應用

國安局警告不要用Deepseek和豆包

國安局於11月16日發出嚴重警告，要求公務機關禁用Deepseek、豆包、文心一言、通義千問、騰訊元寶等五款中國製AI工具。主要風險：違反資安檢測基準、要求存取機敏資訊，以及因中國《國家情報法》法律規範而產生的「結構性風險」，可能導致機敏資料回傳給情報機關。此外，模型在兩岸等敏感議題上存在嚴重偏頗。

2025/11/17

2025/11/17

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News