🔍 AI 透明度大倒退?史丹佛重磅調查:2025 基礎模型透明度指數詳解

更新 發佈閱讀 9 分鐘
raw-image

嗨我是 Mech Muse 👋,今天想跟大家聊聊一份剛出爐、而且有點「刺眼」的 AI 成績單——史丹佛 HAI 公布的 《2025 基礎模型透明度指數》(FMTI)

如果你平常有在用 ChatGPT、Llama、Gemini、Claude 等 AI 工具,這份調查的意義其實比你想的還大:它不是在評比模型「強不強」,而是檢查這些大廠有沒有 把資訊說清楚——像訓練資料從哪來?有沒有做風險評估?會不會對社會造成負面影響?耗不耗能?等等。

結果一公布,整個產業真的被敲醒:

今年平均分數從 2024 年的 58/100,掉到只剩 40 分。

IBM 則以 95 分 拿下史上最高分,直接成為少數真正「攤開帳本」的公司。

今天這篇文章會帶你:

  1. 先快速理解這份指數在看什麼、今年發生什麼事
  2. 用時間線方式帶你看 2023–2025 發展
  3. 深入聊幾個大家最關心的亮點:比如 IBM 如何拿 95、為什麼「開源不等於透明」
  4. 最後整理:身為一般人或企業決策者,我們到底可以從這份報告得到什麼啟示?

一、這份「透明度成績單」到底在看什麼?今年為什麼分數會大滑落?

史丹佛的這份《基礎模型透明度指數》已經邁入第三年,2025 年評比了 13 家公司,包括 Google、Meta、OpenAI、Anthropic,也加入像阿里巴巴、Midjourney、DeepSeek、xAI 這些新秀。

raw-image

調查的內容分成三大區塊,總共 15 個指標:

  • 上游透明度:訓練資料來源、算力使用、標註流程
  • 模型本體:能力測試、風險評估、安全機制
  • 下游資訊:模型怎麼提供給用戶、允許與禁止的用途、對社會的影響

但最讓人皺眉頭的重點只有一句:

透明度不但普遍偏低,而且比去年更糟。

2025 的平均分只有 40 分,甚至不到及格邊緣。史丹佛研究團隊把公司分成:

  • 頂尖組:大約 75 分
  • 中段班:35 分
  • 後段班:15 分
raw-image

在這些公司裡,IBM 表現最亮眼,以 95/100 拿下指數史上最高分。他們做了幾件史丹佛特別強調的事,包括:

  • 訓練資料揭露到「外部研究者理論上可以重現」的深度
  • 願意讓外部審計者存取訓練資料
  • 明確提供風險管理與安全測試文件

相反地,Midjourney 和 xAI 只拿到大約 14 分,屬於幾乎沒有資訊揭露的級別。

更大的問題是:大部分公司對於 能源使用、碳排、水資源消耗、社會影響 幾乎都是空白。這代表外界根本無法評估:

「這些模型除了方便以外,到底花掉多少社會成本?」

而這也凸顯了一件事:

目前 AI 透明度 嚴重依賴個別公司的意願,而不是整個產業願意共同提升標準。


二、2023–2025 三年時間線:AI 透明度如何從拉起來到又跌下去

要理解今年為什麼「透明度倒退」,把時間軸拉出來看會更清楚。

2023:第一屆指數,整體表現「很不透明」

第一次發布透明度指數時,平均只有三十幾分。許多公司對訓練資料、算力、風險測試、使用政策等都沒有公開資料,使得研究者與政策制定者根本無法判斷模型安全不安全、合不合規。

2024:在輿論和政策的壓力下,大家開始補作業

第二版指數公布後,平均分衝到 58 分

各家公司開始:

  • 提供更完整的模型卡(model card)
  • 公布訓練資料類型
  • 發布風險測試結果

連企業市場都開始更看重透明度,像 IBM 的 Granite 模型因此特別受到青睞。

2025:標準變嚴格、公司收緊資訊 → 平均分掉到 40

2025 的指標更新後,調整成符合最新基礎模型使用方式的新標準。按照新指標換算,2024 的平均大約是 58 分,但今年直接掉到 40。

更驚訝的是名次大洗牌:

  • Meta、OpenAI 2023 還是前段班,2025 卻掉到倒數兩名
  • AI21 Labs 從 2023 的倒數二,爬到 2025 的第一名(在持續被追蹤的六家公司中)
  • 新加入的四家(阿里、DeepSeek、Midjourney、xAI)全部落在後段

史丹佛還點名幾件具體事件:

  • Meta 在 Llama 4 缺乏完整技術報告
  • Google 在 Gemini 2.5 模型卡延遲發布,也被英國國會質疑不符合透明承諾

總結起來:

  • 2023:大家普遍做不好
  • 2024:被壓力逼著進步
  • 2025:開始出現「分化」——少數公司更透明,多數公司反而封閉起來

這也是為什麼史丹佛直接下結論:

「AI transparency is on the decline(AI 透明度正在下滑)。」


三、IBM 為什麼能拿 95?為什麼「開源 ≠ 透明」?什麼又是最大黑箱?

如果你看到這裡,心裡很自然會冒出兩個疑問:

  1. IBM 到底做了什麼,能拿到 95 分?
  2. 開源不是很開放嗎?為什麼有些開源公司仍然不透明?

IBM 的 95 分不是魔法,而是「願意多說一點」

史丹佛點名 IBM 的三個關鍵做法:

  • 資料揭露深度扎實:不是一句「用了網路資料」就帶過,而是拆到資料類型、解釋比例,讓外部研究者理論上可以重建資料集結構
  • 願意外部審計:目前唯一願意讓第三方實際接觸訓練資料的公司
  • 風險與濫用場景文件完整

這些其實都不是高難度技術,而是「公司願不願意把話說清楚」的問題。

開源 ≠ 透明

這次報告裡直接指出:

  • DeepSeek、Meta、阿里都屬於重要的開源玩家
  • 但透明度分數卻在中後段

原因很簡單:

把模型權重開源 ≠ 清楚說明它是怎麼做的。

許多開源專案:

  • 強調「效能」與「用法」
  • 但沒有寫清楚訓練資料、風險、限制、社會影響

所以開源雖然在技術上比較自由,但未必比較負責任。

環境與社會影響,是最大的黑箱

報告裡最令人擔心的部分其實不是資料來源,而是:

  • 多少電?
  • 多少水?
  • 多少碳排?
  • 對哪些群體造成什麼實際影響?

在 13 家公司裡,有 10 家在這部分幾乎完全空白。

但這些指標其實非常重要:

  • AI 資料中心會拉升當地電力負載
  • 有些國家因資料中心耗水而出現水資源壓力
  • 模型部署後可能影響弱勢族群、勞動市場或錯誤資訊傳播

所以 IBM 應該被注意的不是「它變強了」,而是:

它證明高度透明是做得到的,只是大多數公司選擇不做。


四、這份報告對一般人、工程師、企業決策者有什麼啟示?

最後,我想用比較實際的角度,談談你我可以從這份報告得到什麼。

如果你是一般使用者/創作者/工程師

你可以把 FMTI 當成一個「背景雷達」:

  • 分數高 → 願意揭露資訊、較容易接受外部監督
  • 分數低 → 不代表不能用,但代表「你應該知道的,這家公司沒說」

在選擇把敏感資料丟進某個模型前,透明度是一個重要參考,而不是只有「效果好不好」這一題。

如果你是企業決策者/採購 AI 工具的人

透明度其實可以用在:

  • RFP(需求文件):要求供應商提供透明度報告
  • 法遵與風險管理:高風險應用需要挑透明度高的公司
  • AI 治理框架:納入像 FMTI 這樣的第三方指標

現在已經有部分國家(例如歐盟、加州)開始要求前沿模型揭露更多資訊,未來透明度可能會變成合規必需。

真正的重點

這份報告不是要大家今天就棄用某些服務,而是提醒:

AI 已經是社會基礎建設,我們有權要求建造這些系統的人把資訊講清楚。


如果你喜歡這類「把硬知識講到好吸收」的科技整理,歡迎在方格子追蹤我 Mech Muse 👋。我會持續帶大家一起看懂全球科技產業正在發生的事,用最不誇張但最實用的角度陪你一起理解 AI 世界。


這篇文章如果有讓你覺得實用、有趣,也可以考慮小額贊助支持我~

👉贊助支持:贊助連結

❤️加入付費會員,每週獲得最新科技新知

《Mech》AI 週一報 #001|2025年11/17~11/23

《Mech》人型機器人 週二報 #001|2025.11.18~2025.11.24

《Mech》小型核能 週三報 #001| 2025.11.19~2025.11.25

《Mech》量子科技 週四報 #001| 2025.11.20~2025.11.26

《Mech》太空科技 週五報 #001| 2025.11.21~2025.11.27

《Mech》生物科技 週六報 #001| 2025.11.22~2025.11.28

【Mech週報】2025年11月30日|上週科技新知回顧|11/23–11/29熱點整理

留言
avatar-img
留言分享你的想法!
avatar-img
Mech muse 智慧新知
49會員
774內容數
因為喜歡分享科技新知,所以創立這個部落格,目前主要分享人型機器人,偶爾分享一些AI、小型核能的最新趨勢,讓你即時掌握最新消息。 聯絡我:mechmuse32@gmail.com
Mech muse 智慧新知的其他內容
2025/12/10
史丹佛 HAI 公布《2025 基礎模型透明度指數》,評比 13 家 AI 公司在訓練資料、風險、環境影響等 15 項指標的公開程度。結果顯示整體透明度明顯倒退,平均分從 58 分掉到 40 分。IBM 以 95 分奪冠,而 Meta、OpenAI 反而跌到後段班。
Thumbnail
2025/12/10
史丹佛 HAI 公布《2025 基礎模型透明度指數》,評比 13 家 AI 公司在訓練資料、風險、環境影響等 15 項指標的公開程度。結果顯示整體透明度明顯倒退,平均分從 58 分掉到 40 分。IBM 以 95 分奪冠,而 Meta、OpenAI 反而跌到後段班。
Thumbnail
2025/12/10
川普宣布將簽署「ONE RULE」AI 行政命令,要讓美國 AI 監管只剩一套全國規則,由聯邦統一審查,可能蓋過各州已經制定或準備的 AI 法律。這背後牽涉「創新 vs 安全」與「聯邦 vs 州權」的攻防:科技業普遍支持,州政府與隱私團體則強烈反彈。未來影響要看正式條文及法院如何裁決。
Thumbnail
2025/12/10
川普宣布將簽署「ONE RULE」AI 行政命令,要讓美國 AI 監管只剩一套全國規則,由聯邦統一審查,可能蓋過各州已經制定或準備的 AI 法律。這背後牽涉「創新 vs 安全」與「聯邦 vs 州權」的攻防:科技業普遍支持,州政府與隱私團體則強烈反彈。未來影響要看正式條文及法院如何裁決。
Thumbnail
2025/12/10
OpenAI 宣布啟動「OpenAI for Australia」,要在雪梨打造 70 億澳幣等級的主權 AI 超級運算園區,並與三大企業合作替 120 萬名員工與中小企業推 AI 技能訓練,同時推出新創加速與 API 補助。
Thumbnail
2025/12/10
OpenAI 宣布啟動「OpenAI for Australia」,要在雪梨打造 70 億澳幣等級的主權 AI 超級運算園區,並與三大企業合作替 120 萬名員工與中小企業推 AI 技能訓練,同時推出新創加速與 API 補助。
Thumbnail
看更多
你可能也想看
Thumbnail
🤖 AI 對勞動力的衝擊 MIT 新研究:AI 恐取代美國 11.7% 勞動力,白領工作影響最大 關鍵字: MIT、冰山指數、勞動力自動化、白領工作、金融服務、行政工作、失業風險 內容摘要: 根據MIT的一項新研究,人工智慧有潛力取代美國約11.7%的勞動力。這項研究模擬了超過1.51億
Thumbnail
🤖 AI 對勞動力的衝擊 MIT 新研究:AI 恐取代美國 11.7% 勞動力,白領工作影響最大 關鍵字: MIT、冰山指數、勞動力自動化、白領工作、金融服務、行政工作、失業風險 內容摘要: 根據MIT的一項新研究,人工智慧有潛力取代美國約11.7%的勞動力。這項研究模擬了超過1.51億
Thumbnail
微軟不把模型當作終局,而是押注在「鷹架」與「代理人基礎設施」上,從雲端算力到 GitHub 平台,全面佈局未來五十年的 AI 世界。策略核心不是打造最強模型,而是建立 AI 代理人賴以運作的環境,讓微軟成為所有模型、代理人與企業工作流程的共同依賴。模型會變便宜,但鷹架與基礎設施將成為長期價值來源。
Thumbnail
微軟不把模型當作終局,而是押注在「鷹架」與「代理人基礎設施」上,從雲端算力到 GitHub 平台,全面佈局未來五十年的 AI 世界。策略核心不是打造最強模型,而是建立 AI 代理人賴以運作的環境,讓微軟成為所有模型、代理人與企業工作流程的共同依賴。模型會變便宜,但鷹架與基礎設施將成為長期價值來源。
Thumbnail
📊 甲骨文出租輝達晶片只是初期毛利較低?外資喊買 關鍵字: 甲骨文、Oracle、AI伺服器、毛利率、輝達晶片、雲端服務 摘要: 甲骨文股價因市場傳出其AI伺服器出租業務毛利僅14%而下挫,但華爾街分析師認為這是逢低買進的良機。根據The Information報導,甲骨文在6-8月期間透
Thumbnail
📊 甲骨文出租輝達晶片只是初期毛利較低?外資喊買 關鍵字: 甲骨文、Oracle、AI伺服器、毛利率、輝達晶片、雲端服務 摘要: 甲骨文股價因市場傳出其AI伺服器出租業務毛利僅14%而下挫,但華爾街分析師認為這是逢低買進的良機。根據The Information報導,甲骨文在6-8月期間透
Thumbnail
台灣科技業:東元電機 (1504.TW) — 管理層訪談摘要 摘要:東元成為鴻海模組化AI資料中心的合作夥伴;在需求、能見度與競爭力上展現優勢。 我們近期與東元電機管理層進行了交流,討論的重點圍繞著AI資料中心的需求與訂單能見度、東元的競爭優勢,以及模組化的AI資料中心解決方案。 管理層對東元
Thumbnail
台灣科技業:東元電機 (1504.TW) — 管理層訪談摘要 摘要:東元成為鴻海模組化AI資料中心的合作夥伴;在需求、能見度與競爭力上展現優勢。 我們近期與東元電機管理層進行了交流,討論的重點圍繞著AI資料中心的需求與訂單能見度、東元的競爭優勢,以及模組化的AI資料中心解決方案。 管理層對東元
Thumbnail
IBM本週發表最新的Power11伺服器,主打零停機時間和強大的資安功能,內建Power Cyber Vault資安解決方案和Spyre Accelerator晶片,提供企業級AI推論能力和惡意軟體偵測。上一代至今五年研發經歷五年的研發,到底有甚麼過人之處呢?
Thumbnail
IBM本週發表最新的Power11伺服器,主打零停機時間和強大的資安功能,內建Power Cyber Vault資安解決方案和Spyre Accelerator晶片,提供企業級AI推論能力和惡意軟體偵測。上一代至今五年研發經歷五年的研發,到底有甚麼過人之處呢?
Thumbnail
人工智慧(AI)正以驚人的速度重塑我們的社會,從商業到文化,從個人生活到全球資源分配。然而,當我們談論AI的未來時,焦點往往集中在科技巨頭的競爭與財報,而忽略了更深層的問題:AI背後的意圖。借用日本禪宗僧人石橋湛山(Tanzen Ishibashi)的哲學視角,我們可以將AI的發展比喻為一座石橋——
Thumbnail
人工智慧(AI)正以驚人的速度重塑我們的社會,從商業到文化,從個人生活到全球資源分配。然而,當我們談論AI的未來時,焦點往往集中在科技巨頭的競爭與財報,而忽略了更深層的問題:AI背後的意圖。借用日本禪宗僧人石橋湛山(Tanzen Ishibashi)的哲學視角,我們可以將AI的發展比喻為一座石橋——
Thumbnail
Nvidia 作為半導體領導者,正處於人工智慧、遊戲、資料中心和自駕車領域的快速增長中。隨著其GPU需求激增,該公司不僅是AI的關鍵推動者,還在遊戲和自動駕駛技術中占據重要位置。探索 Nvidia 如何繼續在2024年及未來的市場中發揮領先優勢,並引領科技的未來發展。
Thumbnail
Nvidia 作為半導體領導者,正處於人工智慧、遊戲、資料中心和自駕車領域的快速增長中。隨著其GPU需求激增,該公司不僅是AI的關鍵推動者,還在遊戲和自動駕駛技術中占據重要位置。探索 Nvidia 如何繼續在2024年及未來的市場中發揮領先優勢,並引領科技的未來發展。
Thumbnail
2025年科技產業十大變革趨勢與機遇 文章重點摘要: 生成式AI與機器人技術推動人形與服務型機器人的應用與市場成長。 AI技術滲透筆電、伺服器、自動駕駛等領域,並帶動半導體技術革新。 衛星小型化與儲能技術提升,改變全球通訊與能源格局。 文章段落資訊整理 生成式AI與機器人:技術結合多模態
Thumbnail
2025年科技產業十大變革趨勢與機遇 文章重點摘要: 生成式AI與機器人技術推動人形與服務型機器人的應用與市場成長。 AI技術滲透筆電、伺服器、自動駕駛等領域,並帶動半導體技術革新。 衛星小型化與儲能技術提升,改變全球通訊與能源格局。 文章段落資訊整理 生成式AI與機器人:技術結合多模態
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News