OpenAI 推出開源模型 gpt-oss！開源模型領域進入新階段

2025/08/06 更新2025/08/06 發佈閱讀 8 分鐘

2025 年 8 月 5 日，OpenAI 終於推出 gpt-oss-120b 和 gpt-oss-20b 兩款「開放權重 (Open-Weight)」模型。這是自 2019 年的 GPT-2 以來，OpenAI 首次重返開源領域。更關鍵的是，這次的 gpt-oss 模型不僅性能強悍，甚至能在高階筆電上運行。今天，TN科技筆記就帶各位來深入了解 OpenAI 的 gpt-oss，看看它究竟強在甚麼地方吧！

Introducing gpt-oss

OpenAI gpt-oss 懶人包

兩款模型，鎖定不同應用場景

OpenAI 一次推出了兩款模型，滿足不同層級的硬體與需求：

gpt-oss-20b: 這是較小的版本，擁有 210 億（21B）個總參數。它最大的亮點是極低的硬體門檻，只需要 16GB 的記憶體就能運行。這代表你可以在一台高階筆電、甚至未來的行動裝置上，本地部署這個模型。它非常適合邊緣運算、本地推理或需要快速迭代的開發場景。
gpt-oss-120b: 這是更強大的版本，總參數達到 1170 億（117B）。它需要 80GB 的記憶體，大約是一張高階伺服器 GPU（如 NVIDIA A100/H100）的容量。它的性能可以和 OpenAI 自家的付費模型 o4-mini 並駕齊驅，鎖定的是需要頂級推理能力的專業應用。

性能有多強？直接對比 o3 等模型

OpenAI 公布了一系列標準學術評測的數據，直接將 gpt-oss 與自家的 o3、o3-mini、o4-mini 等模型進行比較。

程式與數學能力: 在需要高度邏輯推理的「競爭程式設計 (Codeforces)」和「美國數學邀請賽 (AIME)」等項目上，gpt-oss-120b 的表現幾乎追平甚至在某些項目超越了 o4-mini，遠勝 o3 系列。這顯示其在 STEM 領域的強大潛力。
通用知識與推理: 在 MMLU（大學程度綜合學科測驗）和 HLE（人類最後測試）等評測中，gpt-oss-120b 同樣展現出與 o4-mini 相當的實力。而小型的 gpt-oss-20b 則超越了同級的 o3-mini。
工具使用與代理人能力: 在模擬真實世界任務的 Tau-Bench 評測中，gpt-oss 模型展現了優異的工具使用（例如呼叫外部 API、執行程式碼）和函式呼叫能力，這對於開發 AI 代理人（Agent）應用至關重要。

Introducing gpt-oss

gpt-oss 的強大並非偶然

MoE 混合專家架構：效能與效率的平衡

gpt-oss 的核心技術之一是「混合專家模型 (Mixture-of-Experts, MoE)」。這是一種非常聰明的設計，可以讓模型在擁有巨大規模的同時，保持運算的高效率。

傳統的大語言模型在處理每個輸入時，都需要動用全部的參數，非常耗費運算資源。而 MoE 架構就像一個公司裡有多個不同領域的「專家部門」。當一個任務進來時，會先判斷這個任務最適合交給哪些專家來處理。這種模式讓 gpt-oss 能以遠低於其總參數規模的運算成本，達到頂尖的性能表現，這也是它能在消費級硬體上運行的關鍵。

gpt-oss-120b 擁有 1170 億總參數，但它被分成了 128 個專家。每次處理一個 token，只需要啟動其中的 4 個專家，也就是大約 51 億（5.1B）的「活躍參數」。
gpt-oss-20b 則有 210 億總參數，分為 32 個專家，每次也只啟動 4 個，活躍參數約為 36 億（3.6B）。

Introducing gpt-oss

為「代理人」而生：可控的 CoT 與工具使用

OpenAI 明確指出，gpt-oss 是為「代理人工作流程 (agentic workflows)」而設計的。它不僅擅長遵循指令和使用工具（如網路搜尋、Python 程式碼執行），還有一個非常特別的設計：未經監督的思維鏈 (Chain-of-Thought, CoT)。

一般模型在訓練時，會連同它的「思考過程」一起進行監督式微調，確保其思考路徑符合人類期望。但 OpenAI 這次反其道而行，他們沒有對 gpt-oss 的 CoT 進行直接監督。他們認為，一個未經修飾的、原始的 CoT，更能反映模型的真實「想法」，這對於偵測模型的潛在誤用、欺騙或不當行為非常有幫助。開發者雖然不應該將這個原始的 CoT 直接展示給終端用戶，但可以將其作為一個強大的後端監控工具。

安全優先：OpenAI 的「紅隊演練」與挑戰賽

開放模型權重意味著失去對模型部署的直接控制權，惡意行為者可能對其進行微調以用於不法目的。對此，OpenAI 採取了極其審慎的態度。

他們在自家嚴格的「整備框架 (Preparedness Framework)」下，進行了大規模的「對抗性微調」測試。他們模擬駭客，嘗試將 gpt-oss-120b 微調成能用於生物、化學或網路攻擊的危險工具。結論是，即便動用了 OpenAI 頂尖的訓練資源，這些被「惡意微調」後的模型，其危險能力也未能達到需要高度警戒的門檻。

此外，為了促進整個社群的參與，OpenAI 還發起了一場總獎金高達 50 萬美元的「紅隊挑戰賽 (Red Teaming Challenge)」，鼓勵全球的開發者和研究人員一起來尋找並回報 gpt-oss 的潛在安全問題。

拓寬開發者的想像空間：從雲端到邊緣裝置的無限可能

降低成本與延遲: 對於許多應用來說，每次都呼叫雲端 API 不僅成本高昂，網路延遲也是個問題。現在，企業可以將 gpt-oss 直接部署在自己的伺服器上，實現低延遲、高隱私的本地推理。
客製化與微調: 開發者可以根據自己的特定需求，對 gpt-oss 進行微調，打造出專屬領域的專家模型，這是使用封閉 API 無法做到的。
邊緣 AI 的新可能: 隨著 gpt-oss-20b 這樣輕量級模型的出現，未來在手機、汽車、智慧家居設備上運行複雜的語言模型將成為可能，開啟真正的「個人化 AI」時代。

OpenAI 也已和 Azure, AWS, Hugging Face, Ollama 等主流平台合作，確保開發者可以輕鬆地獲取和部署這些模型，進一步降低使用門檻。

TN科技筆記的觀點

以安全為前提的開放：OpenAI 這次在安全議題上做足了功課，從詳盡的風險評估報告到社群挑戰賽，他們試圖建立一種「負責任的開放」新典範。這種作法值得所有希望投入開源模型的公司學習。
安全責任的轉移：雖然 OpenAI 已經盡力確保模型的基礎安全性，但一旦模型開放，最終的安全責任就落到了成千上萬的開發者身上。社群是否有足夠的能力和自律，來防止模型被濫用，將是一個長期的考驗。
對開發者而言：立刻下載 Ollama 或到 Hugging Face 上體驗 gpt-oss！這是用最低成本接觸世界頂尖 AI 技術的絕佳機會。不論是開發有趣的個人專案，或是為公司探索新的 AI 應用，現在就是最好的時機。