針對結構化數據調整 Data Collator 的策略

更新 發佈閱讀 5 分鐘

針對結構化數據(如 API 文件、JSON 結構、代碼、或是規則手冊),您的訓練策略必須比處理一般文章更為精確。結構化數據的特性在於其「邏輯嚴密性」與「格式固定性」,這對模型來說既是挑戰也是優點。

在兩張 RTX 5090 上處理幾百 MB 的結構化數據,請務必優化以下三個核心環節:


1. 數據預處理:從「文字」到「邏輯塊」

結構化數據最忌諱被「隨機切斷」。如果一個 API 的定義被切成兩半放在不同的訓練樣本中,模型很難學會完整的邏輯。

  • Packing 策略:

使用 "Constant Length Padding"。將多個完整的結構化塊拼接到 40968192Token,並在每個塊之間加入特殊的 EOS(End of Sequence)符號。

  • 範例處理:如果數據是 API 文件,建議格式化為:

### Definition: [API_NAME] \n ### Schema: [JSON_BODY] \n ### Usage: [CODE_EXAMPLE] <|end_of_text|>


2. 訓練器的關鍵設定 (5090 特化)

處理結構化數據時,模型需要更高的注意力精確度

優先級一:Flash Attention 3 與長文本

結構化數據往往包含長列表或嵌套結構。5090 配合 Flash Attention 3 可以輕鬆處理 8192 甚至更長的序列。

  • 優點: 讓模型在看 API 的結尾時,依然能「記住」開頭的定義。

優先級二:Liger Kernel 的 FusedLinearCrossEntropy

由於結構化數據中包含大量重複的符號(如 {, }, [, ] 或特定 Key 值),這會導致模型在計算 Loss 時,最後一層的邏輯非常集中。

  • 配置: 務必開啟 Liger Kernel,它優化的 Cross Entropy 計算能讓模型在面對高重複性 Token 時,梯度更新更穩定,且省下更多顯存。

3. DeepSpeed Stage 3 + 8-bit Adam

儘管 5090 很強,但全參數微調 7B 模型時,優化器狀態會佔用巨大空間。

  • 配置建議: 使用 DeepSpeed ZeRO-3,並將 offload_optimizer 設為 cpu。同時,為了加速收斂並節省 RAM,建議使用 bitsandbytes 8-bit AdamW 優化器
</>JSON
{
"zero_optimization": {
"stage": 3,
"offload_optimizer": {
"device": "cpu"
}
},
"optimizer": {
"type": "AdamW",
"params": {
"lr": 1e-5,
"betas": [0.9, 0.95],
"eps": 1e-8,
"weight_decay": 0.1
}
}
}

4. 針對結構化數據的特殊調整:學習率與權重衰減

  • Learning Rate (LR): 建議設為 1e-5。結構化數據不需要模型「發揮創意」,需要的是「精確記憶」。較低的 LR 能防止模型過度擬合(Overfitting)導致喪失對話能力。
  • Weight Decay: 設為 0.1。這能強制模型學習數據背後的規律,而不是死背某個特定的 API 參數名稱。

5. 驗證與測試 (Evaluation)

訓練完成後,結構化數據的驗證不能只看 Loss,建議建立一個小的 測試集 (Evaluation Set)

  1. 給予一個 API 名稱,看模型是否能輸出正確的 JSON 格式。
  2. 給予一個邏輯需求,看模型是否能調用正確的結構。



留言
avatar-img
sirius數字沙龍
9會員
218內容數
吃自助火鍋啦!不要客氣,想吃啥,請自行取用!
sirius數字沙龍的其他內容
2026/03/05
根據不同專業數據量,判斷該用 Full Fine-Tuning 還是 LoRA,給出對應的 python 訓練參數設定。對於幾百 MB 的純文字數據(這大約相當於數億個 Token),是一個非常尷尬的規模:用 LoRA 可能學得不夠深,但全參數微調(Full Fine-Tuning)又非常吃資源。
Thumbnail
2026/03/05
根據不同專業數據量,判斷該用 Full Fine-Tuning 還是 LoRA,給出對應的 python 訓練參數設定。對於幾百 MB 的純文字數據(這大約相當於數億個 Token),是一個非常尷尬的規模:用 LoRA 可能學得不夠深,但全參數微調(Full Fine-Tuning)又非常吃資源。
Thumbnail
2026/03/05
如果數據量很大,建議先跑一輪 增量預訓練 (Continual Pre-training) 讓模型「看過」這些字,再進行 指令微調 (SFT) 讓模型「學會回答」相關問題。 準備讓模型吸收專業知識,在 2x RTX 5090 的硬體基礎下,最專業的做法是分為兩個階段。
Thumbnail
2026/03/05
如果數據量很大,建議先跑一輪 增量預訓練 (Continual Pre-training) 讓模型「看過」這些字,再進行 指令微調 (SFT) 讓模型「學會回答」相關問題。 準備讓模型吸收專業知識,在 2x RTX 5090 的硬體基礎下,最專業的做法是分為兩個階段。
Thumbnail
2026/03/05
如果要讓模型「學習新的專業知識」(例如特定的法律條文、醫療文獻或企業內部未公開的技術文檔),這屬於 知識注入(Knowledge Injection) 範疇。 在這種場景下,微調的策略與單純改變說話語氣(Style Transfer)完全不同。
Thumbnail
2026/03/05
如果要讓模型「學習新的專業知識」(例如特定的法律條文、醫療文獻或企業內部未公開的技術文檔),這屬於 知識注入(Knowledge Injection) 範疇。 在這種場景下,微調的策略與單純改變說話語氣(Style Transfer)完全不同。
Thumbnail
看更多
你可能也想看
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
一個時常被問到的問題:作家是如何寫作的? 規律的生活,這是最常聽到的答案。 然而我們在回答的當下總會有一絲心虛或異樣感,有時連我們自己都忘了這樣的異樣感所為何來。我現在揭示這個問題:那是因為提出這個問題的人,真正想問的是寫作的當下發生了什麼,或者說真正能滿足他們好奇心的答案,隱藏在寫作的當下發生
Thumbnail
一個時常被問到的問題:作家是如何寫作的? 規律的生活,這是最常聽到的答案。 然而我們在回答的當下總會有一絲心虛或異樣感,有時連我們自己都忘了這樣的異樣感所為何來。我現在揭示這個問題:那是因為提出這個問題的人,真正想問的是寫作的當下發生了什麼,或者說真正能滿足他們好奇心的答案,隱藏在寫作的當下發生
Thumbnail
今天來講:用 MkDocs 快速建立文件網頁,並部署在 Read The Docs 上。 (南瓜標記🎃 2023082901號文章)
Thumbnail
今天來講:用 MkDocs 快速建立文件網頁,並部署在 Read The Docs 上。 (南瓜標記🎃 2023082901號文章)
Thumbnail
M3U8是什麼文件? M3U8文件是各種音頻和視頻播放使用的播放列表文件。M3U8文件是記錄了一個多媒體索引純文本文件,打開它時播放軟體並不是播放它,而是根據它的索引找到對應的音視頻文件的本地或者網路地址進行播放。
Thumbnail
M3U8是什麼文件? M3U8文件是各種音頻和視頻播放使用的播放列表文件。M3U8文件是記錄了一個多媒體索引純文本文件,打開它時播放軟體並不是播放它,而是根據它的索引找到對應的音視頻文件的本地或者網路地址進行播放。
Thumbnail
在這邊的技巧僅限於使用 Microsoft 的 Word 還有就是使用電子簽核。真的遇到問題時 Microsoft 的支援和搜尋會比這篇有用。
Thumbnail
在這邊的技巧僅限於使用 Microsoft 的 Word 還有就是使用電子簽核。真的遇到問題時 Microsoft 的支援和搜尋會比這篇有用。
Thumbnail
上一篇分享了我們申請加拿大工作簽證的時間表,在這個過程中,我們準備和填寫了很多文件,因此在這裡做一個所需文件總整理,之後再針對官方表格的部份,一個一個教各位如何填寫。
Thumbnail
上一篇分享了我們申請加拿大工作簽證的時間表,在這個過程中,我們準備和填寫了很多文件,因此在這裡做一個所需文件總整理,之後再針對官方表格的部份,一個一個教各位如何填寫。
Thumbnail
查詢某集團的投資架構時,發現公開的電子檔案一個低級錯誤。提醒社畜的各位,注意這些小細節。農曆年後也是許多人轉職到新工作的開始,新的開始注意這些小細節,別一開頭就歪腰!
Thumbnail
查詢某集團的投資架構時,發現公開的電子檔案一個低級錯誤。提醒社畜的各位,注意這些小細節。農曆年後也是許多人轉職到新工作的開始,新的開始注意這些小細節,別一開頭就歪腰!
Thumbnail
外籍人士持駐外館處所核發並加註不得延期之停留簽證入境中華民國後,如因罹患急性重症,或遇天災或其他不可抗力事故,致無法依限離境時,要如何處理? 務請於原持停留簽證在臺停留期限屆滿5個工作天前,備妥說明書、護照正本、中華民國簽證申請表及相關證明文件(如醫院診斷證明書),向領務局或外交部各分支機構申請改辦
Thumbnail
外籍人士持駐外館處所核發並加註不得延期之停留簽證入境中華民國後,如因罹患急性重症,或遇天災或其他不可抗力事故,致無法依限離境時,要如何處理? 務請於原持停留簽證在臺停留期限屆滿5個工作天前,備妥說明書、護照正本、中華民國簽證申請表及相關證明文件(如醫院診斷證明書),向領務局或外交部各分支機構申請改辦
Thumbnail
參加曼陀號 PM 組第二次的月會的活動心得, 這次的主題是 PRD 的撰寫,PRD 的全文是 Product Requirement Document,是每個產品經理工作中最常接觸的工作內容。
Thumbnail
參加曼陀號 PM 組第二次的月會的活動心得, 這次的主題是 PRD 的撰寫,PRD 的全文是 Product Requirement Document,是每個產品經理工作中最常接觸的工作內容。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News