針對結構化數據調整 Data Collator 的策略

JH Young

發佈於滴咕雞

2026/03/06 更新2026/03/06 發佈閱讀 5 分鐘

針對結構化數據（如 API 文件、JSON 結構、代碼、或是規則手冊），您的訓練策略必須比處理一般文章更為精確。結構化數據的特性在於其「邏輯嚴密性」與「格式固定性」，這對模型來說既是挑戰也是優點。

在兩張 RTX 5090 上處理幾百 MB 的結構化數據，請務必優化以下三個核心環節：

1. 數據預處理：從「文字」到「邏輯塊」

結構化數據最忌諱被「隨機切斷」。如果一個 API 的定義被切成兩半放在不同的訓練樣本中，模型很難學會完整的邏輯。

Packing 策略：

使用 "Constant Length Padding"。將多個完整的結構化塊拼接到 4096 或 8192 個 Token，並在每個塊之間加入特殊的 EOS（End of Sequence）符號。

範例處理：如果數據是 API 文件，建議格式化為：

### Definition: [API_NAME] \n ### Schema: [JSON_BODY] \n ### Usage: [CODE_EXAMPLE] <|end_of_text|>

2. 訓練器的關鍵設定 (5090 特化)

處理結構化數據時，模型需要更高的注意力精確度。

優先級一：Flash Attention 3 與長文本

結構化數據往往包含長列表或嵌套結構。5090 配合 Flash Attention 3 可以輕鬆處理 8192 甚至更長的序列。

優點：讓模型在看 API 的結尾時，依然能「記住」開頭的定義。

優先級二：Liger Kernel 的 FusedLinearCrossEntropy

由於結構化數據中包含大量重複的符號（如 {, }, [, ] 或特定 Key 值），這會導致模型在計算 Loss 時，最後一層的邏輯非常集中。

配置： 務必開啟 Liger Kernel，它優化的 Cross Entropy 計算能讓模型在面對高重複性 Token 時，梯度更新更穩定，且省下更多顯存。

3. DeepSpeed Stage 3 + 8-bit Adam

儘管 5090 很強，但全參數微調 7B 模型時，優化器狀態會佔用巨大空間。

配置建議：使用 DeepSpeed ZeRO-3，並將 offload_optimizer 設為 cpu。同時，為了加速收斂並節省 RAM，建議使用 bitsandbytes 的 8-bit AdamW 優化器。

</>JSON
{
  "zero_optimization": {
    "stage": 3,
    "offload_optimizer": {
      "device": "cpu"
    }
  },
  "optimizer": {
    "type": "AdamW",
    "params": {
      "lr": 1e-5,
      "betas": [0.9, 0.95],
      "eps": 1e-8,
      "weight_decay": 0.1
    }
  }
}

4. 針對結構化數據的特殊調整：學習率與權重衰減

Learning Rate (LR)： 建議設為 1e-5。結構化數據不需要模型「發揮創意」，需要的是「精確記憶」。較低的 LR 能防止模型過度擬合（Overfitting）導致喪失對話能力。
Weight Decay： 設為 0.1。這能強制模型學習數據背後的規律，而不是死背某個特定的 API 參數名稱。

5. 驗證與測試 (Evaluation)

訓練完成後，結構化數據的驗證不能只看 Loss，建議建立一個小的 測試集 (Evaluation Set)：

給予一個 API 名稱，看模型是否能輸出正確的 JSON 格式。
給予一個邏輯需求，看模型是否能調用正確的結構。

留言

sirius數字沙龍

9會員

218內容數

吃自助火鍋啦！不要客氣，想吃啥，請自行取用！

sirius數字沙龍的其他內容

2026/03/05

根據專業數據量，應該用 Full Fine-Tuning 還是 LoRA？

根據不同專業數據量，判斷該用 Full Fine-Tuning 還是 LoRA，給出對應的 python 訓練參數設定。對於幾百 MB 的純文字數據（這大約相當於數億個 Token），是一個非常尷尬的規模：用 LoRA 可能學得不夠深，但全參數微調（Full Fine-Tuning）又非常吃資源。

2026/03/05

根據專業數據量，應該用 Full Fine-Tuning 還是 LoRA？

2026/03/05

針對龐大數據量的兩階段切換配置

如果數據量很大，建議先跑一輪增量預訓練 (Continual Pre-training) 讓模型「看過」這些字，再進行指令微調 (SFT) 讓模型「學會回答」相關問題。準備讓模型吸收專業知識，在 2x RTX 5090 的硬體基礎下，最專業的做法是分為兩個階段。

2026/03/05

針對龐大數據量的兩階段切換配置

2026/03/05

微調 (Fine-tuning)模型學習新的專業知識

如果要讓模型「學習新的專業知識」（例如特定的法律條文、醫療文獻或企業內部未公開的技術文檔），這屬於知識注入（Knowledge Injection）範疇。在這種場景下，微調的策略與單純改變說話語氣（Style Transfer）完全不同。

2026/03/05

微調 (Fine-tuning)模型學習新的專業知識

看更多

你可能也想看

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品，以十段寓言式殘篇，重新拼貼記憶、暴力與美學，並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇：帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略，嘗試解析極權底下不可言說之事，將如何成為可被觀看的公共發聲。

#釀電影#釀評論#藝術評論

2026/01/14

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

#釀電影#釀評論#藝術評論

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

柏林劇團在 2026 北藝嚴選，再次帶來由布萊希特改編的經典劇目《三便士歌劇》（The Threepenny Opera），導演巴里・柯斯基以舞台結構與舞台調度，重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核，藉由沉浸與疏離的辯證，解析此作如何再次照見觀眾自身的位置。

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲．蓋柏樂》的詮釋，從劇本歷史、聲響與舞臺設計，到演員的主體創作方法，探討此版本如何讓經典劇作在當代劇場語境下煥發新生，滿足現代觀眾的觀看慾望。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

涵柳的沙龍

《轉轉生 Re:INCARNATION》：從身體與服裝看見奈及利亞的重生

《轉轉生》為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，融合舞蹈、音樂、時尚和視覺藝術，透過身體、服裝與群舞結構，回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發，分析《轉轉生》如何以當代目光，形塑去殖民視角的奈及利亞歷史。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14