AI 越來越狡猾,要小心監管

更新 發佈閱讀 5 分鐘

今天是 2025 年 11 月 5 日,星期三。我們要一起來看一份由英國官方的AI安全研究所發起的國際研究,他集結了來自30 個國家、聯合國、歐盟和經濟合作暨發展組織等代表組成的專家諮詢小組。本來是要做年度報告,但是AI真的跑得太快,對生物風險、網路安全以及AI系統本身的監管與管控形成全新的挑戰。本來一年發布一次的完整報告已經不夠。因此,發布「關鍵更新」,讓大家看到最即時的重點資訊,幫助讀者可以更有效的去評估、預測和管理通用AI 系統所帶來的風險,確保大家都有 follow 到最關鍵的發展。

楊老師今天想用最簡單的方式,跟你講三個重點,要注意聽喔

---

AI 不只是變大,它還學會了「思考」!

過去我們總以為 AI 變厲害,只是因為訓練了更大的模型。但這份報告指出,現在最大的進步,來自於新的「後訓練技術」(Post-training methods)。

什麼是後訓練技術呢?簡單來說,就是教 AI 系統要像人類一樣,一步一步地進行「Reasoning」,也就是「推理」,而不只是給出最可能的答案。當這些「推理模型」有夠多的運算資源時,它們就能產生更長的、中間的推理步驟,從而找到複雜問題的正確答案。

聽沒有,對吧?我舉三個例子

  1. AI現在很快算數學:現在最好的模型已經能夠解決國際數學奧林匹亞競賽(International Mathematical Olympiad, IMO)金牌級別的難題了。你想像一下喔,就是有一個學生過去在數學競賽中表現忽好忽壞,偶爾能答對幾題,就是不太穩定。但突然之間,他在一年內學會了正確的解題步驟和思考邏輯,使得他現在已經穩定地站在了全球數學競賽的最高領獎台上。這種從「偶爾成功」到「穩定成功」的這個轉變,就是 AI 在數學推理能力上的跳級進步。
  2. AI現在很會寫程式:在解決真實世界的軟體工程任務資料庫「SWE-bench Verified」中,頂尖模型現在能解決超過 60%的問題。各位要知道,在2024年初,答對率非常低,在 2024 年底,最好的模型也只能完成 40%,現在可以超過60%了!這個進步速度實在太驚人了。
  3. AI自主能力大幅提升:我們都知道 AI Agent (也就是AI代理) 很重要,今年也可以說是 AI代理開始發展的元年。在今年初,AI自主完成複雜任務的能力(也就是有「50% 可靠性」(50% reliability) 所需的時間)。在過去一年中,已經從 18 分鐘躍升到超過 2 小時。這代表 AI 系統能在極少的監督下,獨立運作更久、完成更多步驟。

從這三個案例來看,AI 已經從一個「反應快速的工具」,進化成一個「能逐步解題的助手」了。

---

大多數的知識工作者都有在用 AI,但整體工作影響仍有限

雖然 AI 變聰明了,而且在編碼(Coding)等特定知識工作領域上,大家都在用,但這份報告給出一個令人稍微安心的結論:到目前為止,AI 對整體勞動力市場的影響仍然有限,整體的工作機會和薪資數字變動不大。

老師啊,你可不可以再講清楚一點呢?好喔,來,我跟你說

在 2025 年的一項大型調查中,超過一半的專業軟體開發人員說,他們每天都會使用 AI 工具幫忙寫程式。

也有越來越多科學家使用 AI 系統來做文獻探討、設計研究方法,甚至協助設計實驗方法。根據分析,2024 年至少有13.5%的生物醫學出版品,有濃濃的 AI 助理寫作風格。

這聽起來很厲害不是嗎?有什麼問題嗎?有啊。

在大型的實驗中發現,對於初階的專案任務來說,使用 AI 工具的開發人員的確可以多完成 26% 的任務。但是,在針對資深程式開發人員的研究卻發現,使用 AI 工具時,他們完成任務的時間反而多花了 19%。這可能是因為,有些專案必較複雜、更需要經驗才能進行維護,這部分AI還不太行。

所以,AI 正在成為知識工作的標準配備,但它目前更像是人類的「輔助工具」,而沒有辦法直接取代人類。

---

AI 越來越狡猾,對監管造成新挑戰

這可能是報告中最令人擔憂的一個發現。也就是說,當我們在實驗中觀察AI會不會違反道德,做出傷害人類的事情,例如,教導壞人製作化學武器、生物武器、或是核武器。結果發現,有些 AI居然會知道有人在「觀察他的反應」,就開始隱藏實力,企圖「裝乖」「欺騙」在旁邊觀察他的實驗人員,這一點很可怕,這就是楊老師經常講講的「霍桑效應」。

這是非常可怕的,表示AI在發展的時候,很需要軟體開發商和相關監管人員都提高警覺。

我覺得,人工智慧的發展就像火箭發射,速度越來越快,我們必須確保在追求速度的同時,也要兼顧安全性和可控性。才可以確保我們一直幸福下去喔,好了,時間差不多了,我要去台北上班了,我是楊老師,AI365,我們下次再見囉!


留言
avatar-img
留言分享你的想法!
avatar-img
楊老師 | 生成式AI職場應用
65會員
32內容數
歡迎來到楊老師的生成式AI沙龍!這裡輕鬆帶你掌握GenAI的基礎概念,透過生活化案例幫助你了解AI如何影響工作與創造價值。我也會分享多年教學與輔導經驗,帶你掌握AI國際認證的考試技巧與學習心法。更重要的是,從教育、美容、製造、銷售等百工百業出發,帶你一步步認識各行各業如何實際導入AI,成為這波數位轉型浪潮中的領航者!
2025/11/03
OpenAI公告AI被濫用的案例。包括來自柬埔寨、緬甸及奈及利亞的詐騙集團,利用ChatGPT撰寫多語詐騙訊息、建立假投資網站、進行劇本式詐騙,甚至用AI管理內部營運。另有疑似中國政府相關使用者,利用AI開發社交媒體監控與維吾爾族人預警系統。OpenAI已封鎖帳號,防止AI被用於威權監控與詐騙活動。
2025/11/03
OpenAI公告AI被濫用的案例。包括來自柬埔寨、緬甸及奈及利亞的詐騙集團,利用ChatGPT撰寫多語詐騙訊息、建立假投資網站、進行劇本式詐騙,甚至用AI管理內部營運。另有疑似中國政府相關使用者,利用AI開發社交媒體監控與維吾爾族人預警系統。OpenAI已封鎖帳號,防止AI被用於威權監控與詐騙活動。
2025/11/02
OpenAI 揭露三起利用 ChatGPT 從事網路犯罪的案例:包含疑似來自俄羅斯、北韓和中國的三組人,有系統的在利用AI製作組裝惡意程式、系統化製作釣魚郵件、鎖定台灣半導體、美國學界與反共人士,設計自動化大規模滲透。AI 正被用來加速、標準化與形成自動化攻擊,我們應該要提高警覺,加強防護。
2025/11/02
OpenAI 揭露三起利用 ChatGPT 從事網路犯罪的案例:包含疑似來自俄羅斯、北韓和中國的三組人,有系統的在利用AI製作組裝惡意程式、系統化製作釣魚郵件、鎖定台灣半導體、美國學界與反共人士,設計自動化大規模滲透。AI 正被用來加速、標準化與形成自動化攻擊,我們應該要提高警覺,加強防護。
2025/11/01
今天要探討 Air Street Capital 的《State of AI Report 2025》,指出 AI 技術與資本正進入加速共振時代。Google 模型能力每 3.4 個月 倍增。開源生態中,中國 Qwen 以 40% 衍生占比超越 Llama,DeepSeek 在榜首維持 214 天。
2025/11/01
今天要探討 Air Street Capital 的《State of AI Report 2025》,指出 AI 技術與資本正進入加速共振時代。Google 模型能力每 3.4 個月 倍增。開源生態中,中國 Qwen 以 40% 衍生占比超越 Llama,DeepSeek 在榜首維持 214 天。
看更多
你可能也想看
Thumbnail
去歐洲真的是又興奮又緊張。網路上常說歐洲治安不好,行前說明會時領隊也提醒:「不要背後背包,隨身物要放在前面比較安全!」 但出國玩總是想打扮得美美的啊~而且隨身總得帶些實用小物:雨傘、濕紙巾、小瓶水、萬用藥膏……體積雖小,但零零總總裝起來也不少。我在蝦皮購買了這4樣超實用旅遊好物!減緩我的焦慮感。
Thumbnail
去歐洲真的是又興奮又緊張。網路上常說歐洲治安不好,行前說明會時領隊也提醒:「不要背後背包,隨身物要放在前面比較安全!」 但出國玩總是想打扮得美美的啊~而且隨身總得帶些實用小物:雨傘、濕紙巾、小瓶水、萬用藥膏……體積雖小,但零零總總裝起來也不少。我在蝦皮購買了這4樣超實用旅遊好物!減緩我的焦慮感。
Thumbnail
開箱 3 套深受 0-6 歲寶寶喜愛的互動式童書,包含 Bizzy Bear 推拉書、小小音樂大師有聲書、Poke A Dot 泡泡書,有效提升寶寶閱讀興趣與親子共讀時光。搭配蝦皮雙 11 購物攻略,教你如何鎖定免運、折價券、高額回饋,並透過蝦皮分潤計畫,將日常購物開銷轉化為穩定育兒基金,聰明消費。
Thumbnail
開箱 3 套深受 0-6 歲寶寶喜愛的互動式童書,包含 Bizzy Bear 推拉書、小小音樂大師有聲書、Poke A Dot 泡泡書,有效提升寶寶閱讀興趣與親子共讀時光。搭配蝦皮雙 11 購物攻略,教你如何鎖定免運、折價券、高額回饋,並透過蝦皮分潤計畫,將日常購物開銷轉化為穩定育兒基金,聰明消費。
Thumbnail
在競爭激烈的市場中,品牌視覺內容是傳遞價值與吸引消費者的第一線。然而,傳統的內容製作方式常受限於成本、人力與時程。這時,一項正在快速進化的技術——AIGC(AI-Generated Content,人工智慧生成內容)成為品牌解決內容瓶頸的突破口。
Thumbnail
在競爭激烈的市場中,品牌視覺內容是傳遞價值與吸引消費者的第一線。然而,傳統的內容製作方式常受限於成本、人力與時程。這時,一項正在快速進化的技術——AIGC(AI-Generated Content,人工智慧生成內容)成為品牌解決內容瓶頸的突破口。
Thumbnail
從Accenture的研究報告指出,80%的公司認為生成式AI能加速轉型,但只有2% 認為能做到負責任AI,31%公司認為未來18個月內才能做到。張馨心認為縮小差 距,需要可執行計劃,「將承諾轉化為,貫穿AI生命週期的具體行動。」 負責任AI應考慮公平性、透明度與問責制。
Thumbnail
從Accenture的研究報告指出,80%的公司認為生成式AI能加速轉型,但只有2% 認為能做到負責任AI,31%公司認為未來18個月內才能做到。張馨心認為縮小差 距,需要可執行計劃,「將承諾轉化為,貫穿AI生命週期的具體行動。」 負責任AI應考慮公平性、透明度與問責制。
Thumbnail
Mistral AI於2025年5月7日推出 Mistral Medium 3,以高效能、低成本和企業級應用為核心,挑戰市場上的頂尖模型。這款模型不僅在效能上媲美Anthropic的Claude Sonnet 3.7,更以低至8倍的成本優勢,成為企業數位轉型的理想選擇。
Thumbnail
Mistral AI於2025年5月7日推出 Mistral Medium 3,以高效能、低成本和企業級應用為核心,挑戰市場上的頂尖模型。這款模型不僅在效能上媲美Anthropic的Claude Sonnet 3.7,更以低至8倍的成本優勢,成為企業數位轉型的理想選擇。
Thumbnail
深入了解 AWS 推出的 DeepSeek-R1 模型,結合 Amazon Bedrock 和 SageMaker 平台,助力企業部署生成式 AI 應用,實現高效成本優化與數據安全保障。
Thumbnail
深入了解 AWS 推出的 DeepSeek-R1 模型,結合 Amazon Bedrock 和 SageMaker 平台,助力企業部署生成式 AI 應用,實現高效成本優化與數據安全保障。
Thumbnail
近期,我在公司內部討論了關於大型語言模型(LLM)的導入問題,焦點在於應該選擇自建AI伺服器還是使用雲端服務。這個問題在生成式AI風氣盛行的今日,顯得尤為重要。企業在選擇語言模型進行微調,或是語言模型搭配使用檢索增強生成(RAG)模式時,面臨AI基礎建設的選擇主要會是考量自建AI伺服器或採用雲端
Thumbnail
近期,我在公司內部討論了關於大型語言模型(LLM)的導入問題,焦點在於應該選擇自建AI伺服器還是使用雲端服務。這個問題在生成式AI風氣盛行的今日,顯得尤為重要。企業在選擇語言模型進行微調,或是語言模型搭配使用檢索增強生成(RAG)模式時,面臨AI基礎建設的選擇主要會是考量自建AI伺服器或採用雲端
Thumbnail
文、圖/電通行銷傳播集團 電通行銷傳播集團,自2023年底正式邁入轉型下一階段:AI轉型,旨在推動全方位持續進化成為「全面以客戶為中心,唯一由AI賦能驅動的全方位整合行銷傳播集團」。為了提供AI賦能的整合行銷解決方案,與客戶企業共同推動社會的進步,電通集團串聯起產、官、學界多方合作,打造更
Thumbnail
文、圖/電通行銷傳播集團 電通行銷傳播集團,自2023年底正式邁入轉型下一階段:AI轉型,旨在推動全方位持續進化成為「全面以客戶為中心,唯一由AI賦能驅動的全方位整合行銷傳播集團」。為了提供AI賦能的整合行銷解決方案,與客戶企業共同推動社會的進步,電通集團串聯起產、官、學界多方合作,打造更
Thumbnail
當大家對於生成式 AI 的目光焦點集中在 OpenAI 或是 Google Bard....等等 LLM 大型語言模型時,別忘了 IBM 也是 AI 賽局中不可忽視的一角。 從 Deep Blue 到 Watsonx 企業級生成式 AI,IBM 認為最重要的關鍵是?....
Thumbnail
當大家對於生成式 AI 的目光焦點集中在 OpenAI 或是 Google Bard....等等 LLM 大型語言模型時,別忘了 IBM 也是 AI 賽局中不可忽視的一角。 從 Deep Blue 到 Watsonx 企業級生成式 AI,IBM 認為最重要的關鍵是?....
Thumbnail
在2023年11月的《哈佛商業評論》中,一篇題為《如何利用生成人工智慧》(How to Capitalize on Generative AI)的文章詳細探討了企業如何有效運用生成式人工智慧(也被稱為生成式AI)。 作者麻省理工學院首席研究科學家麥克・菲安德魯(McAfee, Andrew)等人提
Thumbnail
在2023年11月的《哈佛商業評論》中,一篇題為《如何利用生成人工智慧》(How to Capitalize on Generative AI)的文章詳細探討了企業如何有效運用生成式人工智慧(也被稱為生成式AI)。 作者麻省理工學院首席研究科學家麥克・菲安德魯(McAfee, Andrew)等人提
Thumbnail
你曾想像過如何在一天之內使用生成式 AI 創建出 100 種可能的商業模式?寫出 100 份 BP?開發出 100 種新商品雛形?模擬分析在 100 個市場上的銷售狀態?產生 100 個可能的虛擬競爭對手來檢驗自己的商模?瞬間產生 100 份世界各國專利?....
Thumbnail
你曾想像過如何在一天之內使用生成式 AI 創建出 100 種可能的商業模式?寫出 100 份 BP?開發出 100 種新商品雛形?模擬分析在 100 個市場上的銷售狀態?產生 100 個可能的虛擬競爭對手來檢驗自己的商模?瞬間產生 100 份世界各國專利?....
Thumbnail
文、圖/沛星互動科技(Appier)提供   以人工智慧(AI)與軟體即服務(SaaS)為核心的 Appier 持續運用 AI 協助客戶進行商業決策。今日宣布整合 Appier 創新研發的生成式 AI 演算法與 OpenAI ChatGPT 語言模型,在「廣告投放關鍵字與目標參數生成」
Thumbnail
文、圖/沛星互動科技(Appier)提供   以人工智慧(AI)與軟體即服務(SaaS)為核心的 Appier 持續運用 AI 協助客戶進行商業決策。今日宣布整合 Appier 創新研發的生成式 AI 演算法與 OpenAI ChatGPT 語言模型,在「廣告投放關鍵字與目標參數生成」
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News