針對龐大數據量的兩階段切換配置

2026/03/05 更新2026/03/05 發佈閱讀 3 分鐘

如果數據量很大，建議先跑一輪 增量預訓練 (Continual Pre-training) 讓模型「看過」這些字，再進行 指令微調 (SFT) 讓模型「學會回答」相關問題。

準備讓模型吸收專業知識，在 2x RTX 5090 的硬體基礎下，最專業的做法是分為兩個階段：增量預訓練（Continual Pre-training） 負責讓模型「看過並記住」知識，指令微調（SFT） 負責讓模型「學會用人類的方式回答」這些知識。

以下是針對這兩階段的切換配置與實作建議：

第一階段：增量預訓練 (Continual Pre-training)

✏️ 目標： 讓模型內化專業術語、邏輯與事實。

數據格式： 純文本（如專業文章、手冊、代碼）。
學習率： 極低（例如 $5 \times 10^{-6}$），避免破壞模型原有的基礎常識。
核心配置：

DeepSpeed ZeRO-2/3： 必須開啟。因為這階段通常需要處理長文本（Context Window），ZeRO 能分攤顯存壓力。
Liger Kernel： 強烈建議開啟。它能優化 CrossEntropyLoss，在處理大量新專業詞彙時，能顯著降低顯存峰值。
Flash Attention 3： 必開。確保 5090 在處理 8k 或 16k 窗口時保持極速。全參數訓練：如果數據量超過 500MB，建議嘗試全參數訓練，效果遠好於 LoRA。

第二階段：指令微調 (Supervised Fine-tuning, SFT)

✏️ 目標： 訓練模型如何根據第一階段學到的知識來回答問題。

數據格式： 問答對（QA pairs，例如「根據文獻 A，XX 操作的步驟為何？」）。
學習率： 稍高（例如 $2 \times 10^{-5}$）。
核心配置：

LoRA (Rank=64/128)： 為了節省資源並保持靈活性，這階段常用 LoRA。
NEFTune： 建議開啟（在 SFTTrainer 中加入 neftune_noise_alpha）。這能對輸入 Embedding 加入雜訊，防止模型過擬合到特定的問答樣版中。
Packing： 將多個短 QA 拼接在一起訓練，避免 5090 在處理短文本時頻繁空轉。

5090 雙卡切換配置表 (Cheatsheet)

實作小技巧：如何判斷模型學進去了？

👍 在兩張 5090 跑訓練時，請觀察 Perplexity (PPL)：

第一階段： PPL 應該平穩下降。如果下降太快，可能是過擬合；如果不降，說明學習率太低。
驗證： 訓練完第一階段後，你可以用 base_model 直接補全一段專業術語。如果它能接出正確的專有名詞，代表知識已經注入。

留言

sirius數字沙龍

9會員

218內容數

吃自助火鍋啦！不要客氣，想吃啥，請自行取用！

sirius數字沙龍的其他內容

2026/03/05

微調 (Fine-tuning)模型學習新的專業知識

如果要讓模型「學習新的專業知識」（例如特定的法律條文、醫療文獻或企業內部未公開的技術文檔），這屬於知識注入（Knowledge Injection）範疇。在這種場景下，微調的策略與單純改變說話語氣（Style Transfer）完全不同。

2026/03/05

微調 (Fine-tuning)模型學習新的專業知識

2026/03/05

針對現有模型進行微調（Fine-tune）

如果微調 (Fine-tuning)現有的模型，目標會從「極大化吞吐量」轉變為「用最少的硬體資源跑起最高質量的模型」。 👉在兩張 RTX 5090 的配置下，微調 7B 甚至 70B 模型時，你的技術優先級會重新洗牌。以下是建議的配置順序： 1. 第一優先：Flash Attention 3

2026/03/05

針對現有模型進行微調（Fine-tune）

2026/03/05

NCCL啟動時報錯，排查主機板的 PCIe 通訊

在 RTX 5090 雙卡環境下，NCCL 報錯（常見為 unhandled system error 或 invalid usage）通常源於消費級顯卡缺乏 NVLink 物理橋接，導致 NCCL 嘗試透過 PCIe 進行 Peer-to-Peer (P2P) 通訊時，被主機板的 BIOS 設定。

2026/03/05

NCCL啟動時報錯，排查主機板的 PCIe 通訊

看更多

你可能也想看

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品，以十段寓言式殘篇，重新拼貼記憶、暴力與美學，並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇：帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略，嘗試解析極權底下不可言說之事，將如何成為可被觀看的公共發聲。

#釀電影#釀評論#藝術評論

2026/01/14

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

#釀電影#釀評論#藝術評論

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

柏林劇團在 2026 北藝嚴選，再次帶來由布萊希特改編的經典劇目《三便士歌劇》（The Threepenny Opera），導演巴里・柯斯基以舞台結構與舞台調度，重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核，藉由沉浸與疏離的辯證，解析此作如何再次照見觀眾自身的位置。

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲．蓋柏樂》的詮釋，從劇本歷史、聲響與舞臺設計，到演員的主體創作方法，探討此版本如何讓經典劇作在當代劇場語境下煥發新生，滿足現代觀眾的觀看慾望。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

涵柳的沙龍

《轉轉生 Re:INCARNATION》：從身體與服裝看見奈及利亞的重生

《轉轉生》為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，融合舞蹈、音樂、時尚和視覺藝術，透過身體、服裝與群舞結構，回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發，分析《轉轉生》如何以當代目光，形塑去殖民視角的奈及利亞歷史。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

涵柳的沙龍

《轉轉生 Re:INCARNATION》：從身體與服裝看見奈及利亞的重生

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

微光視角

在 AI 全面接管的 2026 年，如何奪回你的「生物性主權」

在 AI 橫行的 2026 年，我們正被科技以「舒適」和「便利」的名義悄悄「飼養」。文章深入剖析了「零摩擦」、「輸入的暴政」、「合成謬誤」等陷阱，指出過度依賴 AI 和資訊過載正在瓦解我們的大腦、侵蝕獨立思考能力，使我們淪為「數據電池」。

#神經#文章#人生

2026/01/19

微光視角

在 AI 全面接管的 2026 年，如何奪回你的「生物性主權」

#神經#文章#人生

2026/01/19

SSD驗證工程師的告白

Windows中的NVMe Dataset Management (DSM) Hints技術詳解

隨著人工智慧（AI）與大數據應用的普及，儲存裝置的效能與效率日益受到重視。特別是在現代PC架構中，SSD（固態硬碟）已成為標準配備。為了進一步優化SSD的潛力，作業系統與硬體之間的溝通機制至關重要。NVMe Dataset Management (DSM) Hints 正是為此而生的一項關鍵技術，它

#市場#品質#Windows

2025/10/18