🔵 OpenAI 宣布推出全新模型客製化計畫,透過強化微調技術,讓使用者能以自身數據集微調 01 模型,打造符合特定需求的模型。
強化微調:邁向專家級 AI 模型
🔴 強化微調不同於標準微調,它利用強化學習演算法,將模型能力從高中程度提升至博士專家級別,讓模型在特定領域學習全新推理方式,而非僅模仿輸入數據。
🟢 這項技術僅需數十個範例,就能讓模型在特定領域以全新且有效的方式進行推理,且為 OpenAI 內部訓練Frontier 模型(如 GPT-4 和 01 系列)的相同技術。
強化微調的優勢
🔴 使用者可利用自身黃金數據集,將其轉化為獨特的產品,為使用者和客戶提供如同 OpenAI 模型般的魔力。
🔵 首先,在 OpenAI 開發平台上建立新模型,選擇強化微調作為訓練模式,並選擇 01 模型作為基礎模型。
🟢 接著,上傳訓練數據集和驗證數據集,並設定**評分器 (Grader)**評估模型輸出。
🔴 評分器會比較模型輸出和正確答案,給予 0 到 1 之間的分數,作為強化學習過程中的獎勵機制。
[🔴] OpenAI 提供多種預設評分器,未來也將開放使用者自定義評分器。
🟢 訓練過程可能需要數小時到數天,OpenAI 的強化學習演算法和分散式模型訓練架構將協助使用者完成訓練。
評估與結果:超越未經微調的模型
🔴 透過驗證獎勵分數和評估儀表板,可以觀察模型在訓練過程中的進步,以及微調後模型在特定任務上的表現。
🔵 在罕見疾病基因預測任務中,強化微調後的 01 mini 模型 表現優於未經微調的 01 模型。
強化微調:應用領域廣泛
🟢 強化微調不僅適用於科學研究,也適用於生物化學、AI 安全、法律和醫療保健等領域。
🔵 此計畫預計於明年公開推出,但目前大學、研究人員和企業可以申請加入 Alpha 測試計畫。