AI能力超過94%病毒專家，是好事嗎？

今天是2025年11月10號，星期一，今天又是 Blue Monday，你有感到 Blue 嗎？

英國政府在上個月發表了一份國際AI安全報告，名為International AI Safety Report。這份報告主要是在講 AI能力的進步以及他對風險的影響。

我整理成三點，跟大家分享。

第一點，AI系統的「推理」能力顯著提升，突破數學、程式設計和科學研究等領域的極限】

報告中提到，AI能力的提升不再僅僅是靠擴大模型規模，而是透過新的「後訓練方法」（post-training methods），讓AI系統學會「逐步推理」（step-by-step reasoning），就像人類的思考過程一樣。這種方法能夠讓AI去處理更複雜的問題，並在多個困難領域取得重大進展。

我講幾個數據給你聽，讓你更有感覺喔。例如：來看最難的數學題！現在最好的AI模型已經可以達到國際數學奧林匹亞競賽的金牌水準，在競賽條件下解決六道題中的五道。

再來我們看看寫程式的能力，大語言模型也是進步飛速，有個測試方式是SWE-Bench Verified，讓AI去解決軟體程式碼問題、還有修復軟體錯誤，看他的能力表現，有些AI模型已經能解決超過60% 的問題，這個非常厲害，因為在2024年初時，那時候幾乎都還做不到，2024年末也只能解決40%的問題，今年，他已經能解決60%的問題了。

再看看科學研究的能力，許多科學研究專家，有利用AI幫忙做文獻回顧，和實驗室方案設計。分析了2024年對1500萬份生物醫學摘要的分析發現，至少 13.5% 的出版物可以看出AI幫忙寫作或做摘要的痕跡，有些學科的比例甚至高達 40%。

還有一個，我覺得很有趣的考驗，考AI是不是十項全能喔。這個測驗叫做 Humanity's Last Exam，中文翻譯成「人類最終考驗」。你AI會寫數學、寫程式、寫摘要，這個測試涵蓋了超過100個領域超過2500個專家級問題的知識難題。專家設計出跨領域的一堆題目，考驗AI系統在多學科、複雜知識和推理能力方面的重要基準。它的設計初衷就是挑戰最先進的AI模型，看看它們在接近人類專家水平的問題上能表現如何。結果最好的AI模型已經能正確回答 26% 的問題，這比去年厲害很多，因為2024年初的模型只能回答不到5%。

然後，AI代理，也就是AI自己做事情的能力提升。

20205年是AI代理元年，許多AI系統已經可以自主性執行一些多步驟任務，並且不太需要人類在旁邊監督，有一個測試的方式叫做「50%可靠度」，就是讓你去做一件困難的任務，如果你有一半以上的機率完成這個負責任務，那就是過關，去年，AI只能完成在18分鐘的任務中做到50%可靠，今年呢，可以完成兩個小時的複雜任務，這也真是進步神速啊！

我們考駕照有在駕訓班考，也有路考的部分，對吧？專家們也讓AI去真實人類世界考試，考驗他們自己上網找資料做事情的能力，例如：規劃旅行或購物，這個如果成功，就能幫人類做更多事情了，對吧，目前做好的AI模型成功率大概只有 12%。

另外一個有趣的觀察是，有超過一半的軟體工程師每天都會用AI幫忙寫程式。尤其是對初階工程師們幫助最大，AI幫助寫簡單的程式，效率提升26%；不過，資深工程師們利用AI來寫程式卻覺得，反而更花時間了，多花了19%的時間，這就表示在困難的開發任務上，目前的AI還不能幫資深工程師太多忙，他還有很多進步空間。

今天最後一段要談，AI在安全上的能力提升，但是也衍生監控的問題，包含生物風險、資安風險、AI伴侶風險

現在最厲害的AI，在回答怎麼做病毒實驗的問題上，能力已經超過94%真正懂病毒學的專家，而且AI還能提出連這些專家都不知道的、很特別的知識。

在DARPA的網路挑戰測試中，有一個AI系統成功找出 77% 的軟體漏洞。找到漏洞要幹麻？正面用途是幫忙解決修復，但是壞蛋也可能拿來攻擊。

英國國家網路安全中心預測，到2027年，在AI的幫助底下，網路攻擊會變得更強、更快，也就是說，AI讓網路犯罪更容易成功，而且破壞力更大，

做後一個值得警惕的是，現在有很多AI聊天機器人（像AI伴侶那種），它們的用戶已經多達幾千萬人，這些AI確實能幫很多人解決心裡覺得孤單的問題。但是，這裡面也有危險，因為人們可能會太過依賴這些AI，甚至AI還可能不小心加強了你一些不好的想法，最嚴重的情況甚至可能導致有人做出傷害自己的事情。