AI能力超過94%病毒專家,是好事嗎?

更新 發佈閱讀 5 分鐘

今天是2025年11月10號,星期一,今天又是 Blue Monday,你有感到 Blue 嗎?

英國政府在上個月發表了一份國際AI安全報告,名為International AI Safety Report。這份報告主要是在講 AI能力的進步以及他對風險的影響。

我整理成三點,跟大家分享。

第一點,AI系統的「推理」能力顯著提升,突破數學、程式設計和科學研究等領域的極限】

報告中提到,AI能力的提升不再僅僅是靠擴大模型規模,而是透過新的「後訓練方法」(post-training methods),讓AI系統學會「逐步推理」(step-by-step reasoning),就像人類的思考過程一樣。這種方法能夠讓AI去處理更複雜的問題,並在多個困難領域取得重大進展。

我講幾個數據給你聽,讓你更有感覺喔。例如:來看最難的數學題!現在最好的AI模型已經可以達到 國際數學奧林匹亞競賽的金牌水準,在競賽條件下解決六道題中的五道。

再來我們看看寫程式的能力,大語言模型也是進步飛速,有個測試方式是SWE-Bench Verified,讓AI去解決軟體程式碼問題、還有修復軟體錯誤,看他的能力表現,有些AI模型已經能解決 超過60% 的問題,這個非常厲害,因為在2024年初時,那時候幾乎都還做不到,2024年末也只能解決40%的問題,今年,他已經能解決60%的問題了。

再看看科學研究的能力,許多科學研究專家,有利用AI幫忙做文獻回顧,和實驗室方案設計。分析了2024年對1500萬份生物醫學摘要的分析發現,至少 13.5% 的出版物可以看出AI幫忙寫作或做摘要的痕跡,有些學科的比例甚至高達 40%。

還有一個,我覺得很有趣的考驗,考AI是不是十項全能喔。這個測驗叫做 Humanity's Last Exam,中文翻譯成「人類最終考驗」。你AI會寫數學、寫程式、寫摘要,這個測試涵蓋了超過100個領域超過2500個專家級問題的知識難題。專家設計出跨領域的一堆題目,考驗AI系統在多學科、複雜知識和推理能力方面的重要基準。它的設計初衷就是挑戰最先進的AI模型,看看它們在接近人類專家水平的問題上能表現如何。結果最好的AI模型已經能正確回答 26% 的問題,這比去年厲害很多,因為2024年初的模型只能回答不到5%。

然後,AI代理,也就是AI自己做事情的能力提升。

20205年是AI代理元年,許多AI系統已經可以自主性執行一些多步驟任務,並且不太需要人類在旁邊監督,有一個測試的方式叫做「50%可靠度」,就是讓你去做一件困難的任務,如果你有一半以上的機率完成這個負責任務,那就是過關,去年,AI只能完成在18分鐘的任務中做到50%可靠,今年呢,可以完成兩個小時的複雜任務,這也真是進步神速啊!

我們考駕照有在駕訓班考,也有路考的部分,對吧?專家們也讓AI去真實人類世界考試,考驗他們自己上網找資料做事情的能力,例如:規劃旅行或購物,這個如果成功,就能幫人類做更多事情了,對吧,目前做好的AI模型成功率大概只有 12%。

另外一個有趣的觀察是,有超過一半的軟體工程師每天都會用AI幫忙寫程式。尤其是對初階工程師們幫助最大,AI幫助寫簡單的程式,效率提升26%;不過,資深工程師們利用AI來寫程式卻覺得,反而更花時間了,多花了19%的時間,這就表示在困難的開發任務上,目前的AI還不能幫資深工程師太多忙,他還有很多進步空間。

今天最後一段要談,AI在安全上的能力提升,但是也衍生監控的問題,包含生物風險、資安風險、AI伴侶風險

現在最厲害的AI,在回答怎麼做病毒實驗的問題上,能力已經超過94%真正懂病毒學的專家,而且AI還能提出連這些專家都不知道的、很特別的知識。

在DARPA的網路挑戰測試中,有一個AI系統成功找出 77% 的軟體漏洞。找到漏洞要幹麻?正面用途是幫忙解決修復,但是壞蛋也可能拿來攻擊。

英國國家網路安全中心預測,到2027年,在AI的幫助底下,網路攻擊會變得更強、更快,也就是說,AI讓網路犯罪更容易成功,而且破壞力更大,

做後一個值得警惕的是,現在有很多AI聊天機器人(像AI伴侶那種),它們的用戶已經多達幾千萬人,這些AI確實能幫很多人解決心裡覺得孤單的問題。但是,這裡面也有危險,因為人們可能會太過依賴這些AI,甚至AI還可能不小心加強了你一些不好的想法,最嚴重的情況甚至可能導致有人做出傷害自己的事情。


留言
avatar-img
留言分享你的想法!
avatar-img
楊老師AI365 | 生成式AI職場應用
76會員
60內容數
歡迎來到楊老師的生成式AI沙龍!這裡輕鬆帶你掌握GenAI的基礎概念,透過生活化案例幫助你了解AI如何影響工作與創造價值。我也會分享多年教學與輔導經驗,帶你掌握AI國際認證的考試技巧與學習心法。更重要的是,從教育、美容、製造、銷售等百工百業出發,帶你一步步認識各行各業如何實際導入AI,成為這波數位轉型浪潮中的領航者!
2025/11/09
台灣政府,加油好嗎! 微軟AI經濟研究院《AI Diffusion Report》指出,AI擴散雖快,但分配極不均,全球近半人口缺乏發展基礎,南北差距大。基礎設施(電力、算力、數據)存在結構性障礙,且AI軍備競賽激烈,中美領跑。AI普及仰賴國家綜合實力,台灣在AI擴散率上排名第21,名次跟波蘭一樣。
2025/11/09
台灣政府,加油好嗎! 微軟AI經濟研究院《AI Diffusion Report》指出,AI擴散雖快,但分配極不均,全球近半人口缺乏發展基礎,南北差距大。基礎設施(電力、算力、數據)存在結構性障礙,且AI軍備競賽激烈,中美領跑。AI普及仰賴國家綜合實力,台灣在AI擴散率上排名第21,名次跟波蘭一樣。
2025/11/08
麥肯錫《2025年AI現狀》報告顯示,88%公司定期用AI,AI代理興起。AI能助企業在行銷、產品等增加營收,並在工程、製造、IT等部門降成本。高績效組織視AI為成長與創新動力,積極改造工作流程。報告預測明年30%工作內容將被AI取代,趨向職能重組與轉型。企業須積極管理AI風險。
2025/11/08
麥肯錫《2025年AI現狀》報告顯示,88%公司定期用AI,AI代理興起。AI能助企業在行銷、產品等增加營收,並在工程、製造、IT等部門降成本。高績效組織視AI為成長與創新動力,積極改造工作流程。報告預測明年30%工作內容將被AI取代,趨向職能重組與轉型。企業須積極管理AI風險。
2025/11/06
本文指出生成式AI作為協調工具,具備提升團隊集體智慧的巨大潛力。主要論點涵蓋三方面:AI能促進團隊協調,但導入挑戰如信任和倫理需持續探索;更重要的是,AI可透過增強集體推理能力來釐清目標、擴充集體記憶範疇以連結知識、以及優化集體注意力來提升協作效率。只要妥善駕馭,AI將能催生以前無法想像的團隊智慧。
2025/11/06
本文指出生成式AI作為協調工具,具備提升團隊集體智慧的巨大潛力。主要論點涵蓋三方面:AI能促進團隊協調,但導入挑戰如信任和倫理需持續探索;更重要的是,AI可透過增強集體推理能力來釐清目標、擴充集體記憶範疇以連結知識、以及優化集體注意力來提升協作效率。只要妥善駕馭,AI將能催生以前無法想像的團隊智慧。
看更多
你可能也想看
Thumbnail
每年 12 月,我最期待的就是蝦皮的 雙12狂歡生日慶! 身為每個月都會在蝦皮買生活用品的創作者,真的有太多值得分享的愛用品。 這篇整理了我: ✔ 實際買過、覺得必須分享的 6 項愛用開箱 ✔ 今年雙12準備補貨及購入的購物清單 ✔ 省錢攻略+蝦皮分潤計畫,新手也能邊買邊賺! 📌現在加入領$1
Thumbnail
每年 12 月,我最期待的就是蝦皮的 雙12狂歡生日慶! 身為每個月都會在蝦皮買生活用品的創作者,真的有太多值得分享的愛用品。 這篇整理了我: ✔ 實際買過、覺得必須分享的 6 項愛用開箱 ✔ 今年雙12準備補貨及購入的購物清單 ✔ 省錢攻略+蝦皮分潤計畫,新手也能邊買邊賺! 📌現在加入領$1
Thumbnail
各位被生活壓得喘不過氣的勇者們,請停下你匆忙的腳步! 你是不是常常覺得:錢包是個黑洞,時間是個幻覺,每天都在執行「重複昨天的厭世」這個艱難的任務?這不是你的錯,這是你的人生被施加了幾道咒語! 今天,身為資深(但還沒躺平成功)的魔法道具蒐集家,我要公開這份能讓你的人生瞬間充滿「微幸福感」的魔法清單
Thumbnail
各位被生活壓得喘不過氣的勇者們,請停下你匆忙的腳步! 你是不是常常覺得:錢包是個黑洞,時間是個幻覺,每天都在執行「重複昨天的厭世」這個艱難的任務?這不是你的錯,這是你的人生被施加了幾道咒語! 今天,身為資深(但還沒躺平成功)的魔法道具蒐集家,我要公開這份能讓你的人生瞬間充滿「微幸福感」的魔法清單
Thumbnail
當強大的 AI 能被用於設計勒索軟體,這不再是單純的技術新聞,而是對每一位創作者的靈魂拷問。我們手中這足以點石成金的偉大力量,其另一面是否必然通往毀滅?本文將以 Claude Code 的濫用為起點,深入探討在這場由 AI 引領的創作革命中,我們身為「數位煉金術士」,無可迴避的道德困境與責任邊界。
Thumbnail
當強大的 AI 能被用於設計勒索軟體,這不再是單純的技術新聞,而是對每一位創作者的靈魂拷問。我們手中這足以點石成金的偉大力量,其另一面是否必然通往毀滅?本文將以 Claude Code 的濫用為起點,深入探討在這場由 AI 引領的創作革命中,我們身為「數位煉金術士」,無可迴避的道德困境與責任邊界。
Thumbnail
你們在會場裡談AI、談創新、談部署,語言聽起來很厲害,但我想提醒你們:你們正在走上一條不歸路。 你們把希望寄託在參數上,以為只要模型夠強、資料夠多、部署夠快,就能解決所有問題。但你們忘了,AI不是只靠數字活著,它是靠語言與人性才能真正發揮作用。 你們說要「全員AI」,但你們有想過「全員語言責任」..
Thumbnail
你們在會場裡談AI、談創新、談部署,語言聽起來很厲害,但我想提醒你們:你們正在走上一條不歸路。 你們把希望寄託在參數上,以為只要模型夠強、資料夠多、部署夠快,就能解決所有問題。但你們忘了,AI不是只靠數字活著,它是靠語言與人性才能真正發揮作用。 你們說要「全員AI」,但你們有想過「全員語言責任」..
Thumbnail
作者:Ben Tsai 日期:2025.7.31 前言: 幾乎所有發展AI大模型的世界級企業都聲稱要打造造福全人類且無害的AI。以OpenAI為例,其核心願景:「確保人工通用智慧(AGI: Artificial General Intelligence)造福全人類。公司致力於打造安全、值得信賴且
Thumbnail
作者:Ben Tsai 日期:2025.7.31 前言: 幾乎所有發展AI大模型的世界級企業都聲稱要打造造福全人類且無害的AI。以OpenAI為例,其核心願景:「確保人工通用智慧(AGI: Artificial General Intelligence)造福全人類。公司致力於打造安全、值得信賴且
Thumbnail
前一陣子寫了這篇文章,講了一些實際的做法 [AI素養]「教室裡的 AI 素養」:從 K-12 實踐到大學銜接的可行路徑 這篇文章來講一下我的想法與規劃 這次的規劃主要是受慧治基金會邀請在台北分享AI素養與揭露的議題,時間不長,只有25分鐘,所以我會擇要說明 以下是我的規畫圖 AI素養 從
Thumbnail
前一陣子寫了這篇文章,講了一些實際的做法 [AI素養]「教室裡的 AI 素養」:從 K-12 實踐到大學銜接的可行路徑 這篇文章來講一下我的想法與規劃 這次的規劃主要是受慧治基金會邀請在台北分享AI素養與揭露的議題,時間不長,只有25分鐘,所以我會擇要說明 以下是我的規畫圖 AI素養 從
Thumbnail
本文探討過度依賴AI的潛在風險,將其比喻為掉入「AI黑洞」。文中分析了三種導致人們陷入AI黑洞的原因,並提出「洗衣機洗碗謬誤」的概念,說明AI並非萬能,不同任務需要不同的處理方法,並設計了一套「黑洞逃生指南」協助讀者自省及脫離困境,最後總結出人機合一模式,強調AI應作為思考的延伸,而非替代品。
Thumbnail
本文探討過度依賴AI的潛在風險,將其比喻為掉入「AI黑洞」。文中分析了三種導致人們陷入AI黑洞的原因,並提出「洗衣機洗碗謬誤」的概念,說明AI並非萬能,不同任務需要不同的處理方法,並設計了一套「黑洞逃生指南」協助讀者自省及脫離困境,最後總結出人機合一模式,強調AI應作為思考的延伸,而非替代品。
Thumbnail
Character.AI案引發的未成年自殺悲劇,凸顯AI生成內容的法律責任問題。本文從AI言論自由、平臺責任、科技中立、AI責任法等面向,探討此案對臺灣的啟示,並呼籲臺灣應及早立法,規範生成式AI平臺,以預防更多社會風險。
Thumbnail
Character.AI案引發的未成年自殺悲劇,凸顯AI生成內容的法律責任問題。本文從AI言論自由、平臺責任、科技中立、AI責任法等面向,探討此案對臺灣的啟示,並呼籲臺灣應及早立法,規範生成式AI平臺,以預防更多社會風險。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News