
嗨我是 Mech Muse 👋,今天想跟大家聊聊一份剛出爐、而且有點「刺眼」的 AI 成績單——史丹佛 HAI 公布的 《2025 基礎模型透明度指數》(FMTI)。
如果你平常有在用 ChatGPT、Llama、Gemini、Claude 等 AI 工具,這份調查的意義其實比你想的還大:它不是在評比模型「強不強」,而是檢查這些大廠有沒有 把資訊說清楚——像訓練資料從哪來?有沒有做風險評估?會不會對社會造成負面影響?耗不耗能?等等。
結果一公布,整個產業真的被敲醒:今年平均分數從 2024 年的 58/100,掉到只剩 40 分。
IBM 則以 95 分 拿下史上最高分,直接成為少數真正「攤開帳本」的公司。
今天這篇文章會帶你:
- 先快速理解這份指數在看什麼、今年發生什麼事
- 用時間線方式帶你看 2023–2025 發展
- 深入聊幾個大家最關心的亮點:比如 IBM 如何拿 95、為什麼「開源不等於透明」
- 最後整理:身為一般人或企業決策者,我們到底可以從這份報告得到什麼啟示?
一、這份「透明度成績單」到底在看什麼?今年為什麼分數會大滑落?
史丹佛的這份《基礎模型透明度指數》已經邁入第三年,2025 年評比了 13 家公司,包括 Google、Meta、OpenAI、Anthropic,也加入像阿里巴巴、Midjourney、DeepSeek、xAI 這些新秀。

調查的內容分成三大區塊,總共 15 個指標:
- 上游透明度:訓練資料來源、算力使用、標註流程
- 模型本體:能力測試、風險評估、安全機制
- 下游資訊:模型怎麼提供給用戶、允許與禁止的用途、對社會的影響
但最讓人皺眉頭的重點只有一句:
透明度不但普遍偏低,而且比去年更糟。
2025 的平均分只有 40 分,甚至不到及格邊緣。史丹佛研究團隊把公司分成:
- 頂尖組:大約 75 分
- 中段班:35 分
- 後段班:15 分

在這些公司裡,IBM 表現最亮眼,以 95/100 拿下指數史上最高分。他們做了幾件史丹佛特別強調的事,包括:
- 訓練資料揭露到「外部研究者理論上可以重現」的深度
- 願意讓外部審計者存取訓練資料
- 明確提供風險管理與安全測試文件
相反地,Midjourney 和 xAI 只拿到大約 14 分,屬於幾乎沒有資訊揭露的級別。
更大的問題是:大部分公司對於 能源使用、碳排、水資源消耗、社會影響 幾乎都是空白。這代表外界根本無法評估:
「這些模型除了方便以外,到底花掉多少社會成本?」
而這也凸顯了一件事:
目前 AI 透明度 嚴重依賴個別公司的意願,而不是整個產業願意共同提升標準。
二、2023–2025 三年時間線:AI 透明度如何從拉起來到又跌下去
要理解今年為什麼「透明度倒退」,把時間軸拉出來看會更清楚。
2023:第一屆指數,整體表現「很不透明」
第一次發布透明度指數時,平均只有三十幾分。許多公司對訓練資料、算力、風險測試、使用政策等都沒有公開資料,使得研究者與政策制定者根本無法判斷模型安全不安全、合不合規。
2024:在輿論和政策的壓力下,大家開始補作業
第二版指數公布後,平均分衝到 58 分。
各家公司開始:
- 提供更完整的模型卡(model card)
- 公布訓練資料類型
- 發布風險測試結果
連企業市場都開始更看重透明度,像 IBM 的 Granite 模型因此特別受到青睞。
2025:標準變嚴格、公司收緊資訊 → 平均分掉到 40
2025 的指標更新後,調整成符合最新基礎模型使用方式的新標準。按照新指標換算,2024 的平均大約是 58 分,但今年直接掉到 40。
更驚訝的是名次大洗牌:
- Meta、OpenAI 2023 還是前段班,2025 卻掉到倒數兩名
- AI21 Labs 從 2023 的倒數二,爬到 2025 的第一名(在持續被追蹤的六家公司中)
- 新加入的四家(阿里、DeepSeek、Midjourney、xAI)全部落在後段
史丹佛還點名幾件具體事件:
- Meta 在 Llama 4 缺乏完整技術報告
- Google 在 Gemini 2.5 模型卡延遲發布,也被英國國會質疑不符合透明承諾
總結起來:
- 2023:大家普遍做不好
- 2024:被壓力逼著進步
- 2025:開始出現「分化」——少數公司更透明,多數公司反而封閉起來
這也是為什麼史丹佛直接下結論:
「AI transparency is on the decline(AI 透明度正在下滑)。」
三、IBM 為什麼能拿 95?為什麼「開源 ≠ 透明」?什麼又是最大黑箱?
如果你看到這裡,心裡很自然會冒出兩個疑問:
- IBM 到底做了什麼,能拿到 95 分?
- 開源不是很開放嗎?為什麼有些開源公司仍然不透明?
IBM 的 95 分不是魔法,而是「願意多說一點」
史丹佛點名 IBM 的三個關鍵做法:
- 資料揭露深度扎實:不是一句「用了網路資料」就帶過,而是拆到資料類型、解釋比例,讓外部研究者理論上可以重建資料集結構
- 願意外部審計:目前唯一願意讓第三方實際接觸訓練資料的公司
- 風險與濫用場景文件完整
這些其實都不是高難度技術,而是「公司願不願意把話說清楚」的問題。
開源 ≠ 透明
這次報告裡直接指出:
- DeepSeek、Meta、阿里都屬於重要的開源玩家
- 但透明度分數卻在中後段
原因很簡單:
把模型權重開源 ≠ 清楚說明它是怎麼做的。
許多開源專案:
- 強調「效能」與「用法」
- 但沒有寫清楚訓練資料、風險、限制、社會影響
所以開源雖然在技術上比較自由,但未必比較負責任。
環境與社會影響,是最大的黑箱
報告裡最令人擔心的部分其實不是資料來源,而是:
- 多少電?
- 多少水?
- 多少碳排?
- 對哪些群體造成什麼實際影響?
在 13 家公司裡,有 10 家在這部分幾乎完全空白。
但這些指標其實非常重要:
- AI 資料中心會拉升當地電力負載
- 有些國家因資料中心耗水而出現水資源壓力
- 模型部署後可能影響弱勢族群、勞動市場或錯誤資訊傳播
所以 IBM 應該被注意的不是「它變強了」,而是:
它證明高度透明是做得到的,只是大多數公司選擇不做。
四、這份報告對一般人、工程師、企業決策者有什麼啟示?
最後,我想用比較實際的角度,談談你我可以從這份報告得到什麼。
如果你是一般使用者/創作者/工程師
你可以把 FMTI 當成一個「背景雷達」:
- 分數高 → 願意揭露資訊、較容易接受外部監督
- 分數低 → 不代表不能用,但代表「你應該知道的,這家公司沒說」
在選擇把敏感資料丟進某個模型前,透明度是一個重要參考,而不是只有「效果好不好」這一題。
如果你是企業決策者/採購 AI 工具的人
透明度其實可以用在:
- RFP(需求文件):要求供應商提供透明度報告
- 法遵與風險管理:高風險應用需要挑透明度高的公司
- AI 治理框架:納入像 FMTI 這樣的第三方指標
現在已經有部分國家(例如歐盟、加州)開始要求前沿模型揭露更多資訊,未來透明度可能會變成合規必需。
真正的重點
這份報告不是要大家今天就棄用某些服務,而是提醒:
AI 已經是社會基礎建設,我們有權要求建造這些系統的人把資訊講清楚。
如果你喜歡這類「把硬知識講到好吸收」的科技整理,歡迎在方格子追蹤我 Mech Muse 👋。我會持續帶大家一起看懂全球科技產業正在發生的事,用最不誇張但最實用的角度陪你一起理解 AI 世界。
這篇文章如果有讓你覺得實用、有趣,也可以考慮小額贊助支持我~
👉贊助支持:贊助連結
❤️加入付費會員,每週獲得最新科技新知
《Mech》AI 週一報 #001|2025年11/17~11/23
《Mech》人型機器人 週二報 #001|2025.11.18~2025.11.24
《Mech》小型核能 週三報 #001| 2025.11.19~2025.11.25
《Mech》量子科技 週四報 #001| 2025.11.20~2025.11.26
《Mech》太空科技 週五報 #001| 2025.11.21~2025.11.27


















