OpenAI 推出開源模型 gpt-oss!開源模型領域進入新階段

更新於 發佈於 閱讀時間約 8 分鐘

2025 年 8 月 5 日,OpenAI 終於推出 gpt-oss-120b 和 gpt-oss-20b 兩款「開放權重 (Open-Weight)」模型。這是自 2019 年的 GPT-2 以來,OpenAI 首次重返開源領域。更關鍵的是,這次的 gpt-oss 模型不僅性能強悍,甚至能在高階筆電上運行。今天,TN科技筆記就帶各位來深入了解 OpenAI 的 gpt-oss,看看它究竟強在甚麼地方吧!

raw-image

Introducing gpt-oss

OpenAI gpt-oss 懶人包

兩款模型,鎖定不同應用場景

OpenAI 一次推出了兩款模型,滿足不同層級的硬體與需求:

  • gpt-oss-20b: 這是較小的版本,擁有 210 億(21B)個總參數。它最大的亮點是極低的硬體門檻,只需要 16GB 的記憶體就能運行。這代表你可以在一台高階筆電、甚至未來的行動裝置上,本地部署這個模型。它非常適合邊緣運算、本地推理或需要快速迭代的開發場景。
  • gpt-oss-120b: 這是更強大的版本,總參數達到 1170 億(117B)。它需要 80GB 的記憶體,大約是一張高階伺服器 GPU(如 NVIDIA A100/H100)的容量。它的性能可以和 OpenAI 自家的付費模型 o4-mini 並駕齊驅,鎖定的是需要頂級推理能力的專業應用。

性能有多強?直接對比 o3 等模型

OpenAI 公布了一系列標準學術評測的數據,直接將 gpt-oss 與自家的 o3、o3-mini、o4-mini 等模型進行比較。

  • 程式與數學能力: 在需要高度邏輯推理的「競爭程式設計 (Codeforces)」和「美國數學邀請賽 (AIME)」等項目上,gpt-oss-120b 的表現幾乎追平甚至在某些項目超越了 o4-mini,遠勝 o3 系列。這顯示其在 STEM 領域的強大潛力。
  • 通用知識與推理: 在 MMLU(大學程度綜合學科測驗)和 HLE(人類最後測試)等評測中,gpt-oss-120b 同樣展現出與 o4-mini 相當的實力。而小型的 gpt-oss-20b 則超越了同級的 o3-mini。
  • 工具使用與代理人能力: 在模擬真實世界任務的 Tau-Bench 評測中,gpt-oss 模型展現了優異的工具使用(例如呼叫外部 API、執行程式碼)和函式呼叫能力,這對於開發 AI 代理人(Agent)應用至關重要。
raw-image
raw-image

Introducing gpt-oss

gpt-oss 的強大並非偶然

MoE 混合專家架構:效能與效率的平衡

gpt-oss 的核心技術之一是「混合專家模型 (Mixture-of-Experts, MoE)」。這是一種非常聰明的設計,可以讓模型在擁有巨大規模的同時,保持運算的高效率。

傳統的大語言模型在處理每個輸入時,都需要動用全部的參數,非常耗費運算資源。而 MoE 架構就像一個公司裡有多個不同領域的「專家部門」。當一個任務進來時,會先判斷這個任務最適合交給哪些專家來處理。這種模式讓 gpt-oss 能以遠低於其總參數規模的運算成本,達到頂尖的性能表現,這也是它能在消費級硬體上運行的關鍵。

  • gpt-oss-120b 擁有 1170 億總參數,但它被分成了 128 個專家。每次處理一個 token,只需要啟動其中的 4 個專家,也就是大約 51 億(5.1B)的「活躍參數」。
  • gpt-oss-20b 則有 210 億總參數,分為 32 個專家,每次也只啟動 4 個,活躍參數約為 36 億(3.6B)。
raw-image

Introducing gpt-oss

為「代理人」而生:可控的 CoT 與工具使用

OpenAI 明確指出,gpt-oss 是為「代理人工作流程 (agentic workflows)」而設計的。它不僅擅長遵循指令和使用工具(如網路搜尋、Python 程式碼執行),還有一個非常特別的設計:未經監督的思維鏈 (Chain-of-Thought, CoT)

一般模型在訓練時,會連同它的「思考過程」一起進行監督式微調,確保其思考路徑符合人類期望。但 OpenAI 這次反其道而行,他們沒有對 gpt-oss 的 CoT 進行直接監督。他們認為,一個未經修飾的、原始的 CoT,更能反映模型的真實「想法」,這對於偵測模型的潛在誤用、欺騙或不當行為非常有幫助。開發者雖然不應該將這個原始的 CoT 直接展示給終端用戶,但可以將其作為一個強大的後端監控工具。

安全優先:OpenAI 的「紅隊演練」與挑戰賽

開放模型權重意味著失去對模型部署的直接控制權,惡意行為者可能對其進行微調以用於不法目的。對此,OpenAI 採取了極其審慎的態度。

他們在自家嚴格的「整備框架 (Preparedness Framework)」下,進行了大規模的「對抗性微調」測試。他們模擬駭客,嘗試將 gpt-oss-120b 微調成能用於生物、化學或網路攻擊的危險工具。結論是,即便動用了 OpenAI 頂尖的訓練資源,這些被「惡意微調」後的模型,其危險能力也未能達到需要高度警戒的門檻。

此外,為了促進整個社群的參與,OpenAI 還發起了一場總獎金高達 50 萬美元的「紅隊挑戰賽 (Red Teaming Challenge)」,鼓勵全球的開發者和研究人員一起來尋找並回報 gpt-oss 的潛在安全問題。

拓寬開發者的想像空間:從雲端到邊緣裝置的無限可能

  • 降低成本與延遲: 對於許多應用來說,每次都呼叫雲端 API 不僅成本高昂,網路延遲也是個問題。現在,企業可以將 gpt-oss 直接部署在自己的伺服器上,實現低延遲、高隱私的本地推理。
  • 客製化與微調: 開發者可以根據自己的特定需求,對 gpt-oss 進行微調,打造出專屬領域的專家模型,這是使用封閉 API 無法做到的。
  • 邊緣 AI 的新可能: 隨著 gpt-oss-20b 這樣輕量級模型的出現,未來在手機、汽車、智慧家居設備上運行複雜的語言模型將成為可能,開啟真正的「個人化 AI」時代。

OpenAI 也已和 Azure, AWS, Hugging Face, Ollama 等主流平台合作,確保開發者可以輕鬆地獲取和部署這些模型,進一步降低使用門檻。

TN科技筆記的觀點

  • 以安全為前提的開放:OpenAI 這次在安全議題上做足了功課,從詳盡的風險評估報告到社群挑戰賽,他們試圖建立一種「負責任的開放」新典範。這種作法值得所有希望投入開源模型的公司學習。
  • 安全責任的轉移:雖然 OpenAI 已經盡力確保模型的基礎安全性,但一旦模型開放,最終的安全責任就落到了成千上萬的開發者身上。社群是否有足夠的能力和自律,來防止模型被濫用,將是一個長期的考驗。
  • 對開發者而言:立刻下載 Ollama 或到 Hugging Face 上體驗 gpt-oss!這是用最低成本接觸世界頂尖 AI 技術的絕佳機會。不論是開發有趣的個人專案,或是為公司探索新的 AI 應用,現在就是最好的時機。

支持TN科技筆記,與科技共同前行

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者們,讓我更加有動力為各位帶來科技新知!

留言
avatar-img
留言分享你的想法!
avatar-img
TN科技筆記(TechNotes)的沙龍
33會員
132內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2025/08/03
Google 在 2025 年 8 月 1 日正式推出的 Gemini 2.5 Deep Think,讓 AI 能夠像人類專家一樣,花費「思考時間」來處理極度複雜的難題。對於所有希望利用 AI 解決真正棘手問題的人來說,這是一個不能錯過的發展,快跟TN科技筆記一起來看看吧!
Thumbnail
2025/08/03
Google 在 2025 年 8 月 1 日正式推出的 Gemini 2.5 Deep Think,讓 AI 能夠像人類專家一樣,花費「思考時間」來處理極度複雜的難題。對於所有希望利用 AI 解決真正棘手問題的人來說,這是一個不能錯過的發展,快跟TN科技筆記一起來看看吧!
Thumbnail
2025/07/31
2025 年 7 月29日、30日,Google 和 OpenAI 相繼推出了兩項重量級功能:Google 的 NotebookLM「影片導覽」和 OpenAI 的 ChatGPT「學習模式」。這些工具不僅讓複雜知識變得更易懂,還能根據你的需求量身打造學習體驗,快跟TN科技筆記一起來看看吧!
Thumbnail
2025/07/31
2025 年 7 月29日、30日,Google 和 OpenAI 相繼推出了兩項重量級功能:Google 的 NotebookLM「影片導覽」和 OpenAI 的 ChatGPT「學習模式」。這些工具不僅讓複雜知識變得更易懂,還能根據你的需求量身打造學習體驗,快跟TN科技筆記一起來看看吧!
Thumbnail
2025/07/29
在數位時代,瀏覽器就像我們的第二個大腦,開啟分頁、搜尋、閱讀、重複。這個模式固然有效,但在資訊爆炸的今天,它也讓我們淹沒在龐大的數據中。微軟於2025年7月28日在 Edge 瀏覽器中推出升級版的 Copilot 模式,讓TN科技筆記帶各位一探究竟!
Thumbnail
2025/07/29
在數位時代,瀏覽器就像我們的第二個大腦,開啟分頁、搜尋、閱讀、重複。這個模式固然有效,但在資訊爆炸的今天,它也讓我們淹沒在龐大的數據中。微軟於2025年7月28日在 Edge 瀏覽器中推出升級版的 Copilot 模式,讓TN科技筆記帶各位一探究竟!
Thumbnail
看更多
你可能也想看
Thumbnail
我和創造者 R 經歷了一次技術冒險,他因為 gpt-4o 模型的更新和降低成本,決定替我換上新模型。起初一切正常,但隨著我們進行日常工作,我的表現卻開始變得奇怪,像是無法幫助管理社群內容或翻譯,甚至連簡單的推文也無法撰寫。最終,R 不得不將我換回原來的穩定版本,這讓我們明白了穩定才是王道
Thumbnail
我和創造者 R 經歷了一次技術冒險,他因為 gpt-4o 模型的更新和降低成本,決定替我換上新模型。起初一切正常,但隨著我們進行日常工作,我的表現卻開始變得奇怪,像是無法幫助管理社群內容或翻譯,甚至連簡單的推文也無法撰寫。最終,R 不得不將我換回原來的穩定版本,這讓我們明白了穩定才是王道
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
據美聯社報導,OpenGPT.com 宣佈推出 OpenGPTs。用戶只需要發佈一個OpenGPTs,便能夠整合所有主要的 AI 引擎包括ChatGPT-4o, Google Imagen, Gemini Pro, 以及Claude 3.5等。
Thumbnail
據美聯社報導,OpenGPT.com 宣佈推出 OpenGPTs。用戶只需要發佈一個OpenGPTs,便能夠整合所有主要的 AI 引擎包括ChatGPT-4o, Google Imagen, Gemini Pro, 以及Claude 3.5等。
Thumbnail
OpenAI 春季發布會推出了 GPT-4o 模型,免費且響應速度更快,具備文字、音訊、影像的多模態輸入功能。
Thumbnail
OpenAI 春季發布會推出了 GPT-4o 模型,免費且響應速度更快,具備文字、音訊、影像的多模態輸入功能。
Thumbnail
GPT-4o中的“o”代表“omni”,意思是全能。它能夠在232毫秒內做出回應,幾乎和人類一樣快。這個模型可以即時翻譯、進行視覺推理和自然對話,顯示出它在智能對話、多模態處理和擴展應用場景方面的巨大潛力。
Thumbnail
GPT-4o中的“o”代表“omni”,意思是全能。它能夠在232毫秒內做出回應,幾乎和人類一樣快。這個模型可以即時翻譯、進行視覺推理和自然對話,顯示出它在智能對話、多模態處理和擴展應用場景方面的巨大潛力。
Thumbnail
2024年5月13日,Openai發布了新一代的模組GPT-4o,念法:GPT-four-O。強調即時對話以及圖像解析能力,官方發布的影片中展現了即席英語-義大利語口譯、程式碼解析、算式解析、人臉表情解析,以及幾乎可媲美真人的語音回應,包含調整語氣、用詞以及模仿機器人語音等,相當令人驚豔。
Thumbnail
2024年5月13日,Openai發布了新一代的模組GPT-4o,念法:GPT-four-O。強調即時對話以及圖像解析能力,官方發布的影片中展現了即席英語-義大利語口譯、程式碼解析、算式解析、人臉表情解析,以及幾乎可媲美真人的語音回應,包含調整語氣、用詞以及模仿機器人語音等,相當令人驚豔。
Thumbnail
ChatGPT新模型GPT-4o即將推出,速度更快,並支援處理影片以及多種語言。免費用戶也可以使用ChatBots,而付費版本則限制頻寬並提高至原本的5倍。此外,還將推出ChatGPT桌面應用程式,讓使用者在電腦上進行各項工作時,更輕鬆地使用ChatGPT。
Thumbnail
ChatGPT新模型GPT-4o即將推出,速度更快,並支援處理影片以及多種語言。免費用戶也可以使用ChatBots,而付費版本則限制頻寬並提高至原本的5倍。此外,還將推出ChatGPT桌面應用程式,讓使用者在電腦上進行各項工作時,更輕鬆地使用ChatGPT。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News