快訊!OpenAI 最新釋出的開源模型 gpt-oss-safeguard

更新 發佈閱讀 4 分鐘

原文:https://openai.com/index/introducing-gpt-oss-safeguard/

這裡是 OpenAI 在 2025 年 10 月 29 日發表的文章「gpt‑oss‑safeguard」的重點摘要:


📌 主要內容

發布目標:

  1. OpenAI 推出針對「安全分類任務(safety classification tasks)」的開放權重模型 gpt-oss-safeguard,分別為 120 B 與 20 B 兩個版本。 (OpenAI)
  2. 模型基於此前的開放模型 gpt‑oss,並沿用 Apache 2.0 授權,允許開發者下載、修改、部署。 (OpenAI)

功能與用途:

  1. 模型可以在推論(inference)時,同時接收「開發者提供的政策(policy)」與「要分類的內容」,然後輸出分類結果與其「思路鏈(chain-of-thought)」。 (OpenAI)
  2. 這種方式讓開發者可以自定義政策,而不需訓練一個只能「學習已標註例子」的分類器。 (OpenAI)
  3. 適用情境包括:政策剛出現或演變中、訓練資料稀缺、需要細膩分類、或允許較高延遲以換取解釋性等。 (OpenAI)

與傳統分類器的比較:

  1. 傳統安全分類器:透過大量標註資料訓練,然後模型只能學習「安全/不安全」之間的分界,且政策本身未必直接呈現在模型中。 (OpenAI)
  2. gpt-oss-safeguard 則是政策明確呈入模型,並讓模型「思考」政策如何應用於內容,使其具備更大靈活性。 (OpenAI)

性能與評估:

  1. 在內部多政策(multi-policy)測試中,gpt-oss-safeguard 在「必須同時正確符合多個政策」的挑戰下,優於 gpt-oss 及部分其他模型。 (OpenAI)
  2. 在公開的公共基準如 ToxicChat 上,仍有與其他模型接近但稍弱的表現。 (OpenAI)

限制與注意事項:

  1. 雖然具備政策即時應用的優勢,但在某些風險比較複雜、標註資料充足的情況下,傳統「專訓分類器」反而可能表現更好。 (OpenAI)
  2. 此模型因推理(reasoning)過程,需要較多的計算資源與時間,不易迅速擴展至所有內容的處理。 (OpenAI)

社群與未來方向:

  1. OpenAI 與 ROOST 共同建立開源「模型社群(ROOST 模型社群 RMC)」,鼓勵安全研究者、平台運營者使用、測試並回饋。 (OpenAI)
  2. 開發者可立即從 Hugging Face 下載這兩個模型。 (OpenAI)

✅ 意義與影響

  • 讓安全分類(與風險監管)技術變得更開放、可定制:開發者不需等待外部模型更新,而可自行定義「什麼是安全/不安全」的政策,再用模型來執行分類。
  • 在治理與平台安全領域,這種「政策 + 模型即時推理」的路徑,為風險快速演變(如虛假資訊、作弊、社交平台濫用)提供了新的解決方案。
  • 同時,它也突顯了「推理模型」相對於「純分類器訓練」的新的技術方向:雖然成本/延遲較高,但在政策變化快或資料少的情況下,更具優勢。

⚠️ 注意事項

  • 若你的平台或者產品主要風險已經非常明朗、且有大量標註資料,那麼傳統分類器可能仍然是更經濟/速度更快的選擇。
  • 在使用此類模型時,務必要評估計算、延遲、可擴展性(是否能處理大量即時內容),以及你自定義政策的質量與覆蓋範圍。
  • 開源並不等於「無風險」:模型雖可用於分類,但其決策也會受限於政策撰寫的清晰度、模型訓練時的偏差、以及部署時的整體流程與監控。
留言
avatar-img
留言分享你的想法!
avatar-img
Michael楊
23會員
123內容數
日後將分享關於我的經驗(日常、工作、技術),並期待未來能創造屬於我的宇宙。
你可能也想看
Thumbnail
最近開始轉涼了,各位鳥奴們是否會開始擔心小鳥會著涼呢?不用擔心,今天這篇直接帶你看需要的商品,而且今天除了照片之外,我們也直接帶連結✨讓你的雙11購物不盲目,讓你想買直接加入購物車,除了長知識也可以直接下單避寒神器🫱🏼文章結尾也會告訴大家在花錢的同時也能省錢、賺錢的小撇步,請記得留到最後!!
Thumbnail
最近開始轉涼了,各位鳥奴們是否會開始擔心小鳥會著涼呢?不用擔心,今天這篇直接帶你看需要的商品,而且今天除了照片之外,我們也直接帶連結✨讓你的雙11購物不盲目,讓你想買直接加入購物車,除了長知識也可以直接下單避寒神器🫱🏼文章結尾也會告訴大家在花錢的同時也能省錢、賺錢的小撇步,請記得留到最後!!
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
據美聯社報導,OpenGPT.com 宣佈推出 OpenGPTs。用戶只需要發佈一個OpenGPTs,便能夠整合所有主要的 AI 引擎包括ChatGPT-4o, Google Imagen, Gemini Pro, 以及Claude 3.5等。
Thumbnail
據美聯社報導,OpenGPT.com 宣佈推出 OpenGPTs。用戶只需要發佈一個OpenGPTs,便能夠整合所有主要的 AI 引擎包括ChatGPT-4o, Google Imagen, Gemini Pro, 以及Claude 3.5等。
Thumbnail
OpenAI 春季發布會推出了 GPT-4o 模型,免費且響應速度更快,具備文字、音訊、影像的多模態輸入功能。
Thumbnail
OpenAI 春季發布會推出了 GPT-4o 模型,免費且響應速度更快,具備文字、音訊、影像的多模態輸入功能。
Thumbnail
從Open AI推出Chat GPT3.5以來,2023年幾乎話題都圍繞著生成AI,在經濟市場上,AI科技股看好看漲,而AI的運用,更是突破大家的想像。 甚至連詐騙集團都趕上AI的風潮。之前節目有針對兩岸詐騙手法與模式作介紹,想進一步瞭解,在AI浪潮之下,兩岸就AI的法律有沒有什麼相應的管制或措施?
Thumbnail
從Open AI推出Chat GPT3.5以來,2023年幾乎話題都圍繞著生成AI,在經濟市場上,AI科技股看好看漲,而AI的運用,更是突破大家的想像。 甚至連詐騙集團都趕上AI的風潮。之前節目有針對兩岸詐騙手法與模式作介紹,想進一步瞭解,在AI浪潮之下,兩岸就AI的法律有沒有什麼相應的管制或措施?
Thumbnail
自從 2022 年 11 月 30 日 ChatGPT 推出後,引發了一場狂熱,世界也就改變了。生成式 AI 在企業中的應用迅速擴展,帶來新的效率與商機。由於企業內部安裝設罝必要安控護欄的速度,遠不及生成式 AI 的使用擴展速度,因此增加企業潛在的風險,並產生巨大的隱憂。
Thumbnail
自從 2022 年 11 月 30 日 ChatGPT 推出後,引發了一場狂熱,世界也就改變了。生成式 AI 在企業中的應用迅速擴展,帶來新的效率與商機。由於企業內部安裝設罝必要安控護欄的速度,遠不及生成式 AI 的使用擴展速度,因此增加企業潛在的風險,並產生巨大的隱憂。
Thumbnail
OpenAI成立於2015年,旨在以非盈利方式促進AI發展,並避免潛在危害。從GPT-1到GPT-4的發展過程展現了AI無監督學習及多任務學習的潛力。這篇文章回顧了OpenAI在自然語言處理方面的歷程與技術演進,並介紹了各個模型樣本和能力的提升。
Thumbnail
OpenAI成立於2015年,旨在以非盈利方式促進AI發展,並避免潛在危害。從GPT-1到GPT-4的發展過程展現了AI無監督學習及多任務學習的潛力。這篇文章回顧了OpenAI在自然語言處理方面的歷程與技術演進,並介紹了各個模型樣本和能力的提升。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News