Continued pre-training

更新於 發佈於 閱讀時間約 2 分鐘

Continued pre-training 指的是在已有的預訓練模型基礎上,使用新的資料或特定領域的數據,進一步進行訓練以提升模型在該領域或任務上的表現。這種方法常用於大型語言模型或基礎模型(foundation models),讓模型能更好地適應特定應用場景。

主要概念

基礎模型(Foundation Model):先在大規模通用資料上預訓練的模型。

持續預訓練(Continued Pre-training):在基礎模型之上,用更專門或最新的資料繼續訓練,但仍保持無監督或自監督學習方式。

微調(Fine-tuning):在持續預訓練後,針對特定任務用標註資料進行有監督訓練。

作用與優點

提升領域適應性:讓模型更熟悉特定領域的語言風格、術語和知識。

改善模型性能:在特定任務上比直接微調更有效,因為模型先吸收了更多相關背景知識。

減少過擬合風險:持續預訓練保持無監督特性,避免過早針對小資料集微調導致過擬合。

舉例

在通用語言模型基礎上,用醫療文本資料做持續預訓練,使模型更適合醫療問答。

使用最新新聞語料對模型做持續預訓練,提升對近期事件的理解。

與 Amazon 相關

AWS 提供如 SageMaker 等工具支持大規模分散式訓練,方便用戶進行基礎模型的持續預訓練與微調。

簡言之,Continued pre-training 是在已有預訓練模型基礎上,利用新資料進行額外無監督訓練,以提升模型在特定領域或任務的表現。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
9會員
263內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師
2025/07/10
Amazon Forecast 是 AWS 提供的一項全受管的時間序列預測服務,利用機器學習技術,幫助企業根據歷史數據準確預測未來趨勢,無需具備機器學習專業知識即可使用。 主要特點 • 自動化機器學習:自動選擇最適合資料的演算法,簡化模型訓練和調校流程。 • 高準確度:基於 Amazon.
2025/07/10
Amazon Forecast 是 AWS 提供的一項全受管的時間序列預測服務,利用機器學習技術,幫助企業根據歷史數據準確預測未來趨勢,無需具備機器學習專業知識即可使用。 主要特點 • 自動化機器學習:自動選擇最適合資料的演算法,簡化模型訓練和調校流程。 • 高準確度:基於 Amazon.
2025/07/10
Amazon Titan 是 AWS 推出的一系列高性能基礎生成式AI模型(Foundation Models),專為文字生成、圖像生成、多模態任務和語義搜索等多種應用設計,並透過 Amazon Bedrock 提供完全受管的API服務。 主要特點與功能 • 多模態能力:支援文字、圖像、以及文
2025/07/10
Amazon Titan 是 AWS 推出的一系列高性能基礎生成式AI模型(Foundation Models),專為文字生成、圖像生成、多模態任務和語義搜索等多種應用設計,並透過 Amazon Bedrock 提供完全受管的API服務。 主要特點與功能 • 多模態能力:支援文字、圖像、以及文
2025/07/10
Prompt Template 是在使用大型語言模型(如 GPT)時,事先設計好的「提示語句範本」,用來引導模型生成特定類型或格式的回答。它通常包含固定的文字結構和可替換的變數(placeholder),方便重複使用和自動化生成。 主要特點 • 結構化提示:模板中包含固定文字和可變部分,讓輸入
2025/07/10
Prompt Template 是在使用大型語言模型(如 GPT)時,事先設計好的「提示語句範本」,用來引導模型生成特定類型或格式的回答。它通常包含固定的文字結構和可替換的變數(placeholder),方便重複使用和自動化生成。 主要特點 • 結構化提示:模板中包含固定文字和可變部分,讓輸入
看更多
你可能也想看
Thumbnail
家中修繕或裝潢想要找各種小零件時,直接上網採買可以省去不少煩惱~看看Sylvia這回為了工地買了些什麼吧~
Thumbnail
家中修繕或裝潢想要找各種小零件時,直接上網採買可以省去不少煩惱~看看Sylvia這回為了工地買了些什麼吧~
Thumbnail
👜簡單生活,從整理包包開始!我的三款愛用包+隨身小物清單開箱,一起來看看我每天都帶些什麼吧🌿✨
Thumbnail
👜簡單生活,從整理包包開始!我的三款愛用包+隨身小物清單開箱,一起來看看我每天都帶些什麼吧🌿✨
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。 現在我們來載入預訓練權重,預訓練的權重包含 Transformer 的智慧
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。 現在我們來載入預訓練權重,預訓練的權重包含 Transformer 的智慧
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
Thumbnail
筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
Thumbnail
延續上週提到的,「有哪些不訓練模型的情況下,能夠強化語言模型的能力」,這堂課接續介紹其中第 3、4 個方法
Thumbnail
延續上週提到的,「有哪些不訓練模型的情況下,能夠強化語言模型的能力」,這堂課接續介紹其中第 3、4 個方法
Thumbnail
這一節課說明,如何透過改變給模型的指示或咒語(prompt),來得到不同的結果 。如果直接說結論的話會是,在今天語言模型的能力之下,我們只要交代清楚任務就好,可以包括背景以及需求。而這節課很像是一堂模型咒語的歷史課 XD
Thumbnail
這一節課說明,如何透過改變給模型的指示或咒語(prompt),來得到不同的結果 。如果直接說結論的話會是,在今天語言模型的能力之下,我們只要交代清楚任務就好,可以包括背景以及需求。而這節課很像是一堂模型咒語的歷史課 XD
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News