快訊!OpenAI 最新釋出的開源模型 gpt-oss-safeguard

更新 發佈閱讀 4 分鐘

原文:https://openai.com/index/introducing-gpt-oss-safeguard/

這裡是 OpenAI 在 2025 年 10 月 29 日發表的文章「gpt‑oss‑safeguard」的重點摘要:


📌 主要內容

發布目標:

  1. OpenAI 推出針對「安全分類任務(safety classification tasks)」的開放權重模型 gpt-oss-safeguard,分別為 120 B 與 20 B 兩個版本。 (OpenAI)
  2. 模型基於此前的開放模型 gpt‑oss,並沿用 Apache 2.0 授權,允許開發者下載、修改、部署。 (OpenAI)

功能與用途:

  1. 模型可以在推論(inference)時,同時接收「開發者提供的政策(policy)」與「要分類的內容」,然後輸出分類結果與其「思路鏈(chain-of-thought)」。 (OpenAI)
  2. 這種方式讓開發者可以自定義政策,而不需訓練一個只能「學習已標註例子」的分類器。 (OpenAI)
  3. 適用情境包括:政策剛出現或演變中、訓練資料稀缺、需要細膩分類、或允許較高延遲以換取解釋性等。 (OpenAI)

與傳統分類器的比較:

  1. 傳統安全分類器:透過大量標註資料訓練,然後模型只能學習「安全/不安全」之間的分界,且政策本身未必直接呈現在模型中。 (OpenAI)
  2. gpt-oss-safeguard 則是政策明確呈入模型,並讓模型「思考」政策如何應用於內容,使其具備更大靈活性。 (OpenAI)

性能與評估:

  1. 在內部多政策(multi-policy)測試中,gpt-oss-safeguard 在「必須同時正確符合多個政策」的挑戰下,優於 gpt-oss 及部分其他模型。 (OpenAI)
  2. 在公開的公共基準如 ToxicChat 上,仍有與其他模型接近但稍弱的表現。 (OpenAI)

限制與注意事項:

  1. 雖然具備政策即時應用的優勢,但在某些風險比較複雜、標註資料充足的情況下,傳統「專訓分類器」反而可能表現更好。 (OpenAI)
  2. 此模型因推理(reasoning)過程,需要較多的計算資源與時間,不易迅速擴展至所有內容的處理。 (OpenAI)

社群與未來方向:

  1. OpenAI 與 ROOST 共同建立開源「模型社群(ROOST 模型社群 RMC)」,鼓勵安全研究者、平台運營者使用、測試並回饋。 (OpenAI)
  2. 開發者可立即從 Hugging Face 下載這兩個模型。 (OpenAI)

✅ 意義與影響

  • 讓安全分類(與風險監管)技術變得更開放、可定制:開發者不需等待外部模型更新,而可自行定義「什麼是安全/不安全」的政策,再用模型來執行分類。
  • 在治理與平台安全領域,這種「政策 + 模型即時推理」的路徑,為風險快速演變(如虛假資訊、作弊、社交平台濫用)提供了新的解決方案。
  • 同時,它也突顯了「推理模型」相對於「純分類器訓練」的新的技術方向:雖然成本/延遲較高,但在政策變化快或資料少的情況下,更具優勢。

⚠️ 注意事項

  • 若你的平台或者產品主要風險已經非常明朗、且有大量標註資料,那麼傳統分類器可能仍然是更經濟/速度更快的選擇。
  • 在使用此類模型時,務必要評估計算、延遲、可擴展性(是否能處理大量即時內容),以及你自定義政策的質量與覆蓋範圍。
  • 開源並不等於「無風險」:模型雖可用於分類,但其決策也會受限於政策撰寫的清晰度、模型訓練時的偏差、以及部署時的整體流程與監控。
留言
avatar-img
Michael楊
32會員
138內容數
日後將分享關於我的經驗(日常、工作、技術),並期待未來能創造屬於我的宇宙。
你可能也想看
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
據美聯社報導,OpenGPT.com 宣佈推出 OpenGPTs。用戶只需要發佈一個OpenGPTs,便能夠整合所有主要的 AI 引擎包括ChatGPT-4o, Google Imagen, Gemini Pro, 以及Claude 3.5等。
Thumbnail
據美聯社報導,OpenGPT.com 宣佈推出 OpenGPTs。用戶只需要發佈一個OpenGPTs,便能夠整合所有主要的 AI 引擎包括ChatGPT-4o, Google Imagen, Gemini Pro, 以及Claude 3.5等。
Thumbnail
OpenAI 春季發布會推出了 GPT-4o 模型,免費且響應速度更快,具備文字、音訊、影像的多模態輸入功能。
Thumbnail
OpenAI 春季發布會推出了 GPT-4o 模型,免費且響應速度更快,具備文字、音訊、影像的多模態輸入功能。
Thumbnail
從Open AI推出Chat GPT3.5以來,2023年幾乎話題都圍繞著生成AI,在經濟市場上,AI科技股看好看漲,而AI的運用,更是突破大家的想像。 甚至連詐騙集團都趕上AI的風潮。之前節目有針對兩岸詐騙手法與模式作介紹,想進一步瞭解,在AI浪潮之下,兩岸就AI的法律有沒有什麼相應的管制或措施?
Thumbnail
從Open AI推出Chat GPT3.5以來,2023年幾乎話題都圍繞著生成AI,在經濟市場上,AI科技股看好看漲,而AI的運用,更是突破大家的想像。 甚至連詐騙集團都趕上AI的風潮。之前節目有針對兩岸詐騙手法與模式作介紹,想進一步瞭解,在AI浪潮之下,兩岸就AI的法律有沒有什麼相應的管制或措施?
Thumbnail
自從 2022 年 11 月 30 日 ChatGPT 推出後,引發了一場狂熱,世界也就改變了。生成式 AI 在企業中的應用迅速擴展,帶來新的效率與商機。由於企業內部安裝設罝必要安控護欄的速度,遠不及生成式 AI 的使用擴展速度,因此增加企業潛在的風險,並產生巨大的隱憂。
Thumbnail
自從 2022 年 11 月 30 日 ChatGPT 推出後,引發了一場狂熱,世界也就改變了。生成式 AI 在企業中的應用迅速擴展,帶來新的效率與商機。由於企業內部安裝設罝必要安控護欄的速度,遠不及生成式 AI 的使用擴展速度,因此增加企業潛在的風險,並產生巨大的隱憂。
Thumbnail
OpenAI成立於2015年,旨在以非盈利方式促進AI發展,並避免潛在危害。從GPT-1到GPT-4的發展過程展現了AI無監督學習及多任務學習的潛力。這篇文章回顧了OpenAI在自然語言處理方面的歷程與技術演進,並介紹了各個模型樣本和能力的提升。
Thumbnail
OpenAI成立於2015年,旨在以非盈利方式促進AI發展,並避免潛在危害。從GPT-1到GPT-4的發展過程展現了AI無監督學習及多任務學習的潛力。這篇文章回顧了OpenAI在自然語言處理方面的歷程與技術演進,並介紹了各個模型樣本和能力的提升。
Thumbnail
這篇內容與你分享我看到哪些不錯的設計、AI 相關內容,像是我最近有看到 OpenAI 官方分享的 Prompt 教學,由官方分享絕對實用,另外也看到一篇創作者分享自己的一手印刷廠推薦心得,這真的非常難得,除了很多人會私藏外,要花心力整理也很不容易。
Thumbnail
這篇內容與你分享我看到哪些不錯的設計、AI 相關內容,像是我最近有看到 OpenAI 官方分享的 Prompt 教學,由官方分享絕對實用,另外也看到一篇創作者分享自己的一手印刷廠推薦心得,這真的非常難得,除了很多人會私藏外,要花心力整理也很不容易。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News