2025 年 8 月 5 日,OpenAI 終於推出 gpt-oss-120b 和 gpt-oss-20b 兩款「開放權重 (Open-Weight)」模型。這是自 2019 年的 GPT-2 以來,OpenAI 首次重返開源領域。更關鍵的是,這次的 gpt-oss 模型不僅性能強悍,甚至能在高階筆電上運行。今天,TN科技筆記就帶各位來深入了解 OpenAI 的 gpt-oss,看看它究竟強在甚麼地方吧!

OpenAI gpt-oss 懶人包
兩款模型,鎖定不同應用場景
OpenAI 一次推出了兩款模型,滿足不同層級的硬體與需求:- gpt-oss-20b: 這是較小的版本,擁有 210 億(21B)個總參數。它最大的亮點是極低的硬體門檻,只需要 16GB 的記憶體就能運行。這代表你可以在一台高階筆電、甚至未來的行動裝置上,本地部署這個模型。它非常適合邊緣運算、本地推理或需要快速迭代的開發場景。
- gpt-oss-120b: 這是更強大的版本,總參數達到 1170 億(117B)。它需要 80GB 的記憶體,大約是一張高階伺服器 GPU(如 NVIDIA A100/H100)的容量。它的性能可以和 OpenAI 自家的付費模型 o4-mini 並駕齊驅,鎖定的是需要頂級推理能力的專業應用。
性能有多強?直接對比 o3 等模型
OpenAI 公布了一系列標準學術評測的數據,直接將 gpt-oss 與自家的 o3、o3-mini、o4-mini 等模型進行比較。
- 程式與數學能力: 在需要高度邏輯推理的「競爭程式設計 (Codeforces)」和「美國數學邀請賽 (AIME)」等項目上,gpt-oss-120b 的表現幾乎追平甚至在某些項目超越了 o4-mini,遠勝 o3 系列。這顯示其在 STEM 領域的強大潛力。
- 通用知識與推理: 在 MMLU(大學程度綜合學科測驗)和 HLE(人類最後測試)等評測中,gpt-oss-120b 同樣展現出與 o4-mini 相當的實力。而小型的 gpt-oss-20b 則超越了同級的 o3-mini。
- 工具使用與代理人能力: 在模擬真實世界任務的 Tau-Bench 評測中,gpt-oss 模型展現了優異的工具使用(例如呼叫外部 API、執行程式碼)和函式呼叫能力,這對於開發 AI 代理人(Agent)應用至關重要。


gpt-oss 的強大並非偶然
MoE 混合專家架構:效能與效率的平衡
gpt-oss 的核心技術之一是「混合專家模型 (Mixture-of-Experts, MoE)」。這是一種非常聰明的設計,可以讓模型在擁有巨大規模的同時,保持運算的高效率。
傳統的大語言模型在處理每個輸入時,都需要動用全部的參數,非常耗費運算資源。而 MoE 架構就像一個公司裡有多個不同領域的「專家部門」。當一個任務進來時,會先判斷這個任務最適合交給哪些專家來處理。這種模式讓 gpt-oss 能以遠低於其總參數規模的運算成本,達到頂尖的性能表現,這也是它能在消費級硬體上運行的關鍵。
- gpt-oss-120b 擁有 1170 億總參數,但它被分成了 128 個專家。每次處理一個 token,只需要啟動其中的 4 個專家,也就是大約 51 億(5.1B)的「活躍參數」。
- gpt-oss-20b 則有 210 億總參數,分為 32 個專家,每次也只啟動 4 個,活躍參數約為 36 億(3.6B)。

為「代理人」而生:可控的 CoT 與工具使用
OpenAI 明確指出,gpt-oss 是為「代理人工作流程 (agentic workflows)」而設計的。它不僅擅長遵循指令和使用工具(如網路搜尋、Python 程式碼執行),還有一個非常特別的設計:未經監督的思維鏈 (Chain-of-Thought, CoT)。
一般模型在訓練時,會連同它的「思考過程」一起進行監督式微調,確保其思考路徑符合人類期望。但 OpenAI 這次反其道而行,他們沒有對 gpt-oss 的 CoT 進行直接監督。他們認為,一個未經修飾的、原始的 CoT,更能反映模型的真實「想法」,這對於偵測模型的潛在誤用、欺騙或不當行為非常有幫助。開發者雖然不應該將這個原始的 CoT 直接展示給終端用戶,但可以將其作為一個強大的後端監控工具。
安全優先:OpenAI 的「紅隊演練」與挑戰賽
開放模型權重意味著失去對模型部署的直接控制權,惡意行為者可能對其進行微調以用於不法目的。對此,OpenAI 採取了極其審慎的態度。
他們在自家嚴格的「整備框架 (Preparedness Framework)」下,進行了大規模的「對抗性微調」測試。他們模擬駭客,嘗試將 gpt-oss-120b 微調成能用於生物、化學或網路攻擊的危險工具。結論是,即便動用了 OpenAI 頂尖的訓練資源,這些被「惡意微調」後的模型,其危險能力也未能達到需要高度警戒的門檻。
此外,為了促進整個社群的參與,OpenAI 還發起了一場總獎金高達 50 萬美元的「紅隊挑戰賽 (Red Teaming Challenge)」,鼓勵全球的開發者和研究人員一起來尋找並回報 gpt-oss 的潛在安全問題。
拓寬開發者的想像空間:從雲端到邊緣裝置的無限可能
- 降低成本與延遲: 對於許多應用來說,每次都呼叫雲端 API 不僅成本高昂,網路延遲也是個問題。現在,企業可以將 gpt-oss 直接部署在自己的伺服器上,實現低延遲、高隱私的本地推理。
- 客製化與微調: 開發者可以根據自己的特定需求,對 gpt-oss 進行微調,打造出專屬領域的專家模型,這是使用封閉 API 無法做到的。
- 邊緣 AI 的新可能: 隨著 gpt-oss-20b 這樣輕量級模型的出現,未來在手機、汽車、智慧家居設備上運行複雜的語言模型將成為可能,開啟真正的「個人化 AI」時代。
OpenAI 也已和 Azure, AWS, Hugging Face, Ollama 等主流平台合作,確保開發者可以輕鬆地獲取和部署這些模型,進一步降低使用門檻。
TN科技筆記的觀點
- 以安全為前提的開放:OpenAI 這次在安全議題上做足了功課,從詳盡的風險評估報告到社群挑戰賽,他們試圖建立一種「負責任的開放」新典範。這種作法值得所有希望投入開源模型的公司學習。
- 安全責任的轉移:雖然 OpenAI 已經盡力確保模型的基礎安全性,但一旦模型開放,最終的安全責任就落到了成千上萬的開發者身上。社群是否有足夠的能力和自律,來防止模型被濫用,將是一個長期的考驗。
- 對開發者而言:立刻下載 Ollama 或到 Hugging Face 上體驗 gpt-oss!這是用最低成本接觸世界頂尖 AI 技術的絕佳機會。不論是開發有趣的個人專案,或是為公司探索新的 AI 應用,現在就是最好的時機。
支持TN科技筆記,與科技共同前行
我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡
在此也感謝每個月持續請我喝杯咖啡的讀者們,讓我更加有動力為各位帶來科技新知!