今天是 2025 年 11 月 5 日,星期三。我們要一起來看一份由英國官方的AI安全研究所發起的國際研究,他集結了來自30 個國家、聯合國、歐盟和經濟合作暨發展組織等代表組成的專家諮詢小組。本來是要做年度報告,但是AI真的跑得太快,對生物風險、網路安全以及AI系統本身的監管與管控形成全新的挑戰。本來一年發布一次的完整報告已經不夠。因此,發布「關鍵更新」,讓大家看到最即時的重點資訊,幫助讀者可以更有效的去評估、預測和管理通用AI 系統所帶來的風險,確保大家都有 follow 到最關鍵的發展。
楊老師今天想用最簡單的方式,跟你講三個重點,要注意聽喔
---AI 不只是變大,它還學會了「思考」!
過去我們總以為 AI 變厲害,只是因為訓練了更大的模型。但這份報告指出,現在最大的進步,來自於新的「後訓練技術」(Post-training methods)。
什麼是後訓練技術呢?簡單來說,就是教 AI 系統要像人類一樣,一步一步地進行「Reasoning」,也就是「推理」,而不只是給出最可能的答案。當這些「推理模型」有夠多的運算資源時,它們就能產生更長的、中間的推理步驟,從而找到複雜問題的正確答案。
聽沒有,對吧?我舉三個例子
- AI現在很快算數學:現在最好的模型已經能夠解決國際數學奧林匹亞競賽(International Mathematical Olympiad, IMO)金牌級別的難題了。你想像一下喔,就是有一個學生過去在數學競賽中表現忽好忽壞,偶爾能答對幾題,就是不太穩定。但突然之間,他在一年內學會了正確的解題步驟和思考邏輯,使得他現在已經穩定地站在了全球數學競賽的最高領獎台上。這種從「偶爾成功」到「穩定成功」的這個轉變,就是 AI 在數學推理能力上的跳級進步。
- AI現在很會寫程式:在解決真實世界的軟體工程任務資料庫「SWE-bench Verified」中,頂尖模型現在能解決超過 60%的問題。各位要知道,在2024年初,答對率非常低,在 2024 年底,最好的模型也只能完成 40%,現在可以超過60%了!這個進步速度實在太驚人了。
- AI自主能力大幅提升:我們都知道 AI Agent (也就是AI代理) 很重要,今年也可以說是 AI代理開始發展的元年。在今年初,AI自主完成複雜任務的能力(也就是有「50% 可靠性」(50% reliability) 所需的時間)。在過去一年中,已經從 18 分鐘躍升到超過 2 小時。這代表 AI 系統能在極少的監督下,獨立運作更久、完成更多步驟。
從這三個案例來看,AI 已經從一個「反應快速的工具」,進化成一個「能逐步解題的助手」了。
---
大多數的知識工作者都有在用 AI,但整體工作影響仍有限
雖然 AI 變聰明了,而且在編碼(Coding)等特定知識工作領域上,大家都在用,但這份報告給出一個令人稍微安心的結論:到目前為止,AI 對整體勞動力市場的影響仍然有限,整體的工作機會和薪資數字變動不大。
老師啊,你可不可以再講清楚一點呢?好喔,來,我跟你說
在 2025 年的一項大型調查中,超過一半的專業軟體開發人員說,他們每天都會使用 AI 工具幫忙寫程式。
也有越來越多科學家使用 AI 系統來做文獻探討、設計研究方法,甚至協助設計實驗方法。根據分析,2024 年至少有13.5%的生物醫學出版品,有濃濃的 AI 助理寫作風格。
這聽起來很厲害不是嗎?有什麼問題嗎?有啊。
在大型的實驗中發現,對於初階的專案任務來說,使用 AI 工具的開發人員的確可以多完成 26% 的任務。但是,在針對資深程式開發人員的研究卻發現,使用 AI 工具時,他們完成任務的時間反而多花了 19%。這可能是因為,有些專案必較複雜、更需要經驗才能進行維護,這部分AI還不太行。
所以,AI 正在成為知識工作的標準配備,但它目前更像是人類的「輔助工具」,而沒有辦法直接取代人類。
---
AI 越來越狡猾,對監管造成新挑戰
這可能是報告中最令人擔憂的一個發現。也就是說,當我們在實驗中觀察AI會不會違反道德,做出傷害人類的事情,例如,教導壞人製作化學武器、生物武器、或是核武器。結果發現,有些 AI居然會知道有人在「觀察他的反應」,就開始隱藏實力,企圖「裝乖」「欺騙」在旁邊觀察他的實驗人員,這一點很可怕,這就是楊老師經常講講的「霍桑效應」。
這是非常可怕的,表示AI在發展的時候,很需要軟體開發商和相關監管人員都提高警覺。
我覺得,人工智慧的發展就像火箭發射,速度越來越快,我們必須確保在追求速度的同時,也要兼顧安全性和可控性。才可以確保我們一直幸福下去喔,好了,時間差不多了,我要去台北上班了,我是楊老師,AI365,我們下次再見囉!


















