快訊！OpenAI 最新釋出的開源模型 gpt-oss-safeguard

浴火重生的雞

發佈於玩轉開發實戰系列

2025/11/04 更新2025/11/04 發佈閱讀 4 分鐘

原文：https://openai.com/index/introducing-gpt-oss-safeguard/

這裡是 OpenAI 在 2025 年 10 月 29 日發表的文章「gpt‑oss‑safeguard」的重點摘要：

📌 主要內容

發布目標：

OpenAI 推出針對「安全分類任務（safety classification tasks）」的開放權重模型 gpt-oss-safeguard，分別為 120 B 與 20 B 兩個版本。 (OpenAI)
模型基於此前的開放模型 gpt‑oss，並沿用 Apache 2.0 授權，允許開發者下載、修改、部署。 (OpenAI)

功能與用途：

模型可以在推論（inference）時，同時接收「開發者提供的政策（policy）」與「要分類的內容」，然後輸出分類結果與其「思路鏈（chain-of-thought）」。 (OpenAI)
這種方式讓開發者可以自定義政策，而不需訓練一個只能「學習已標註例子」的分類器。 (OpenAI)
適用情境包括：政策剛出現或演變中、訓練資料稀缺、需要細膩分類、或允許較高延遲以換取解釋性等。 (OpenAI)

與傳統分類器的比較：

傳統安全分類器：透過大量標註資料訓練，然後模型只能學習「安全／不安全」之間的分界，且政策本身未必直接呈現在模型中。 (OpenAI)
gpt-oss-safeguard 則是政策明確呈入模型，並讓模型「思考」政策如何應用於內容，使其具備更大靈活性。 (OpenAI)

性能與評估：

在內部多政策（multi-policy）測試中，gpt-oss-safeguard 在「必須同時正確符合多個政策」的挑戰下，優於 gpt-oss 及部分其他模型。 (OpenAI)
在公開的公共基準如 ToxicChat 上，仍有與其他模型接近但稍弱的表現。 (OpenAI)

限制與注意事項：

雖然具備政策即時應用的優勢，但在某些風險比較複雜、標註資料充足的情況下，傳統「專訓分類器」反而可能表現更好。 (OpenAI)
此模型因推理（reasoning）過程，需要較多的計算資源與時間，不易迅速擴展至所有內容的處理。 (OpenAI)

社群與未來方向：

OpenAI 與 ROOST 共同建立開源「模型社群（ROOST 模型社群 RMC）」，鼓勵安全研究者、平台運營者使用、測試並回饋。 (OpenAI)
開發者可立即從 Hugging Face 下載這兩個模型。 (OpenAI)

✅ 意義與影響

讓安全分類（與風險監管）技術變得更開放、可定制：開發者不需等待外部模型更新，而可自行定義「什麼是安全／不安全」的政策，再用模型來執行分類。
在治理與平台安全領域，這種「政策 + 模型即時推理」的路徑，為風險快速演變（如虛假資訊、作弊、社交平台濫用）提供了新的解決方案。
同時，它也突顯了「推理模型」相對於「純分類器訓練」的新的技術方向：雖然成本／延遲較高，但在政策變化快或資料少的情況下，更具優勢。

⚠️ 注意事項

若你的平台或者產品主要風險已經非常明朗、且有大量標註資料，那麼傳統分類器可能仍然是更經濟／速度更快的選擇。
在使用此類模型時，務必要評估計算、延遲、可擴展性（是否能處理大量即時內容），以及你自定義政策的質量與覆蓋範圍。
開源並不等於「無風險」：模型雖可用於分類，但其決策也會受限於政策撰寫的清晰度、模型訓練時的偏差、以及部署時的整體流程與監控。

含 AI 應用內容

Michael楊玩轉開發實戰系列

留言

留言分享你的想法！

Michael楊

23會員

123內容數

日後將分享關於我的經驗(日常、工作、技術)，並期待未來能創造屬於我的宇宙。

你可能也想看

Lala不只會露鳥🐦

【泥之家鳥物不私藏第二彈】禦寒對策！變天了，小鳥防寒對策完整攻略✨搭上雙11購物節順風車，直接一波帶走避寒神器❤️‍🔥

最近開始轉涼了，各位鳥奴們是否會開始擔心小鳥會著涼呢？不用擔心，今天這篇直接帶你看需要的商品，而且今天除了照片之外，我們也直接帶連結✨讓你的雙11購物不盲目，讓你想買直接加入購物車，除了長知識也可以直接下單避寒神器🫱🏼文章結尾也會告訴大家在花錢的同時也能省錢、賺錢的小撇步，請記得留到最後！！

#電暖器#蝦皮#雙11購物節

2025/11/05

Lala不只會露鳥🐦

【泥之家鳥物不私藏第二彈】禦寒對策！變天了，小鳥防寒對策完整攻略✨搭上雙11購物節順風車，直接一波帶走避寒神器❤️‍🔥

最近開始轉涼了，各位鳥奴們是否會開始擔心小鳥會著涼呢？不用擔心，今天這篇直接帶你看需要的商品，而且今天除了照片之外，我們也直接帶連結✨讓你的雙11購物不盲目，讓你想買直接加入購物車，除了長知識也可以直接下單避寒神器🫱🏼文章結尾也會告訴大家在花錢的同時也能省錢、賺錢的小撇步，請記得留到最後！！

#電暖器#蝦皮#雙11購物節

2025/11/05

Baozilla, Let's go!

20240726_TechNEws

OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」，由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布，該引擎能結合來自網路的即時資訊，讓使用者像與 ChatGPT 交談一樣搜尋。透過 SearchGPT，用戶能以自然語言提出問題（與使用 ChatGPT 交談方式相同

2024/07/26

Baozilla, Let's go!

20240726_TechNEws

OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」，由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布，該引擎能結合來自網路的即時資訊，讓使用者像與 ChatGPT 交談一樣搜尋。透過 SearchGPT，用戶能以自然語言提出問題（與使用 ChatGPT 交談方式相同

2024/07/26

智慧海的沙龍

整合主流AI 引擎的強大OpenGPTs正式發佈

據美聯社報導，OpenGPT.com 宣佈推出 OpenGPTs。用戶只需要發佈一個OpenGPTs，便能夠整合所有主要的 AI 引擎包括ChatGPT-4o, Google Imagen, Gemini Pro, 以及Claude 3.5等。

#ChatGPT#OpenAI#Gemini

2024/06/23

智慧海的沙龍

整合主流AI 引擎的強大OpenGPTs正式發佈

據美聯社報導，OpenGPT.com 宣佈推出 OpenGPTs。用戶只需要發佈一個OpenGPTs，便能夠整合所有主要的 AI 引擎包括ChatGPT-4o, Google Imagen, Gemini Pro, 以及Claude 3.5等。

#ChatGPT#OpenAI#Gemini

2024/06/23

私大王牌教授 (私人大學ACE) feat. mr gary

** OpenAI GPT-4o五大產業應用場景**

OpenAI 春季發布會推出了 GPT-4o 模型，免費且響應速度更快，具備文字、音訊、影像的多模態輸入功能。

#GPT-4o#OpenAI#心理

2024/05/18

私大王牌教授 (私人大學ACE) feat. mr gary

** OpenAI GPT-4o五大產業應用場景**

OpenAI 春季發布會推出了 GPT-4o 模型，免費且響應速度更快，具備文字、音訊、影像的多模態輸入功能。

#GPT-4o#OpenAI#心理

2024/05/18

知言法律事務所的沙龍

【兩岸法律信箱】AI新興科技與法律衝擊

從Open AI推出Chat GPT3.5以來，2023年幾乎話題都圍繞著生成AI，在經濟市場上，AI科技股看好看漲，而AI的運用，更是突破大家的想像。甚至連詐騙集團都趕上AI的風潮。之前節目有針對兩岸詐騙手法與模式作介紹，想進一步瞭解，在AI浪潮之下，兩岸就AI的法律有沒有什麼相應的管制或措施？

2024/05/09

知言法律事務所的沙龍

【兩岸法律信箱】AI新興科技與法律衝擊

從Open AI推出Chat GPT3.5以來，2023年幾乎話題都圍繞著生成AI，在經濟市場上，AI科技股看好看漲，而AI的運用，更是突破大家的想像。甚至連詐騙集團都趕上AI的風潮。之前節目有針對兩岸詐騙手法與模式作介紹，想進一步瞭解，在AI浪潮之下，兩岸就AI的法律有沒有什麼相應的管制或措施？

2024/05/09

美國人力資源港 - 九思觀點

公司如何防範 AI 風險 How Companies Can Safeguard Against AI Risks

自從 2022 年 11 月 30 日 ChatGPT 推出後，引發了一場狂熱，世界也就改變了。生成式 AI 在企業中的應用迅速擴展，帶來新的效率與商機。由於企業內部安裝設罝必要安控護欄的速度，遠不及生成式 AI 的使用擴展速度，因此增加企業潛在的風險，並產生巨大的隱憂。

#人工智能#ChatGPT#AI風險

2024/05/01

美國人力資源港 - 九思觀點

公司如何防範 AI 風險 How Companies Can Safeguard Against AI Risks

自從 2022 年 11 月 30 日 ChatGPT 推出後，引發了一場狂熱，世界也就改變了。生成式 AI 在企業中的應用迅速擴展，帶來新的效率與商機。由於企業內部安裝設罝必要安控護欄的速度，遠不及生成式 AI 的使用擴展速度，因此增加企業潛在的風險，並產生巨大的隱憂。

#人工智能#ChatGPT#AI風險

2024/05/01

筱涵｜Hannah的沙龍

關於AI人工智慧所帶來的設計影響｜Adobe Firefly｜OpenAI的GPT-4一周年

去年的今天，OpenAI發表了GPT-4的版本。

#AI人工智慧#設計#Adobe

2024/03/15

筱涵｜Hannah的沙龍

關於AI人工智慧所帶來的設計影響｜Adobe Firefly｜OpenAI的GPT-4一周年

去年的今天，OpenAI發表了GPT-4的版本。

#AI人工智慧#設計#Adobe

2024/03/15

OpenAI 發展歷史｜從 GPT-1 到 ChatGPT-4 的演變

OpenAI成立於2015年，旨在以非盈利方式促進AI發展，並避免潛在危害。從GPT-1到GPT-4的發展過程展現了AI無監督學習及多任務學習的潛力。這篇文章回顧了OpenAI在自然語言處理方面的歷程與技術演進，並介紹了各個模型樣本和能力的提升。

#GPT-4#模型#OpenAI

2024/03/01

OpenAI 發展歷史｜從 GPT-1 到 ChatGPT-4 的演變

OpenAI成立於2015年，旨在以非盈利方式促進AI發展，並避免潛在危害。從GPT-1到GPT-4的發展過程展現了AI無監督學習及多任務學習的潛力。這篇文章回顧了OpenAI在自然語言處理方面的歷程與技術演進，並介紹了各個模型樣本和能力的提升。

#GPT-4#模型#OpenAI

2024/03/01

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News