設計一套專門為武俠小說微調(LoRA)設計的資料格式,
比如:
- 唐玄宗開元年間
- 絲路 / 祆教 / 波斯密使
- 軋犖山(安祿山)
- 華山派、公孫嫣
- 宗教與權謀交織
🎯 訓練出「懂世界觀、會寫武功、能操控角色」的武俠模型
🧠 訓練資料設計核心原則
武俠模型要學會 4 件事:
- 文風(古風敘事)
- 武功描寫(動態場景)
- 角色性格一致性
- 世界觀設定穩定性
所以資料不能只是:
</>Json
{"instruction":"寫小說","output":"......"}
那樣太弱。
🏗 一、推薦資料結構(進階型)
我建議用 多層結構 JSONL 格式
每一筆資料是一行 JSON:
</>Json
{
"system": "...世界觀設定...",
"instruction": "...當前任務...",
"input": "...情境背景...",
"output": "...小說正文..."
}
🏯 二、完整範例(結合你世界觀)
</>Json
{
"system": "背景為唐玄宗開元年間。絲路繁盛,祆教暗中活動。華山派守正道,胡商勢力滲透邊關。",
"instruction": "描寫軋犖山初入長安,與楊國忠暗中試探的場景。",
"input": "夜宴之上,燈火如晝,波斯香氣瀰漫。",
"output": "軋犖山緩步入殿,衣袍隱隱泛著火紋暗繡。楊國忠抬目而視,笑意未達眼底。兩人舉杯對飲,言辭平和,卻句句藏鋒。"
}
⚔ 三、戰鬥場景格式(動態專用)
武俠模型最容易失敗的是打鬥。
所以建議做「動作拆解型資料」。
</>Json
{
"instruction": "描寫華山劍法對戰祆教火焰秘術",
"input": "地點:華山絕頂;天候:風雪交加",
"output": "公孫嫣劍勢如寒梅綻放,一式『寒元破影』直逼對方心口。祆教使者掌心火焰翻湧,赤焰化蛇,纏向劍鋒。劍氣與火光交織,雪花瞬間蒸散成霧。"
}
🧙 四、角色人格固定訓練(防止 OOC)
OOC = Out of Character(角色崩壞)
我們要專門做角色對話資料:
</>Json
{
"instruction": "以公孫嫣的語氣回應對方挑釁",
"input": "對方說:華山劍法不過爾爾。",
"output": "公孫嫣冷然道:劍未出鞘,何來評斷?若真有膽,請上前一步。"
}
🏺 五、世界觀知識型資料
這能讓模型穩定記住設定。
</>Json
{
"instruction": "解釋祆教在開元年間的勢力分布",
"output": "祆教於西域與敦煌一帶勢力深厚,長安設有秘密據點,由摩布德掌管情報網。"
}
📚 六、進階設計:章節延續訓練
為了讓模型會「接續寫作」:
</>Json
{
"instruction": "延續以下段落",
"input": "夜色壓城,遠處鼓聲低沉。公孫嫣忽覺背後風動——",
"output": "她未曾回首,長劍已反手出鞘。寒芒如電,直指來人眉心。"
}
這種資料非常重要。
🧬 七、資料比例建議

📦 八、資料量建議
最低:
- 3,000 筆(可用)
理想:
- 10,000~30,000 筆(效果明顯)
🛠 九、讓模型更聰明的技巧
1️⃣ 多樣 prompt 表達
不要都寫:
描寫...
可以混用:
- 請刻畫...
- 試寫...
- 以古風筆法呈現...
- 用冷峻風格描寫...
2️⃣ 控制輸出長度
避免模型只學會寫短段落。
3️⃣ 加入錯誤示例(可選進階)
讓模型知道什麼是不好的武俠寫法。
🎯 十、如果你想做成專屬世界模型
我們可以升級成:
</>Json
{
"system": "固定世界觀",
"character_profile": "角色卡",
"instruction": "...",
"output": "..."
}
這會非常強。
🚀 結論
真正厲害的小說模型,不是靠大參數。
而是靠:
高品質、結構化、角色一致性的資料設計。






