GPT-4智商僅27%?AGI還有多遠的路要走! #98

更新 發佈閱讀 20 分鐘

哈囉!這邊是科技碎碎念,資訊 x AI時代下,我們將從海量的全球新聞與新知中,透過生成式 AI 彙整出精華懶人包,聚焦全球科技關鍵話題,讓您輕鬆透過閱讀或聆聽掌握趨勢變革。

科技碎碎念 傳送門
Youtube 傳送門
「大肚報報」社群傳送門

快速重點摘要

  • 人工智慧發展與倫理挑戰:
    • AGI 的定義以人類認知模型為基礎,但當前 AI 在長期記憶等基礎認知能力上存在明顯缺陷,如 GPT-4 僅達 27% 的分數。
    • OpenAI 的 Sora 2 雖然禁止性內容,但已被用於製作涉及真實人物臉部的利基型戀物內容(例如:腹部膨脹、懷孕等),引發關於未經同意使用肖像權的道德擔憂。
  • 尖端運算硬體與生產環境脫節:
    • NVIDIA DGX Spark 的訓練效能雖符合基準測試,但 GPU 推論功能存在根本性缺陷(產生錯誤或崩潰),且長時間訓練會因記憶體碎片化而導致系統死機。
    • 對於此類尖端硬體,專家建議必須實作緩解措施,如限制訓練會話時間、頻繁清除快取並使用 Ollama 等封裝器進行推論。
  • 行動裝置市場的價值感知錯誤:
    • Apple 和 Samsung 的「輕薄」手機(如 iPhone Air、Galaxy S25 Edge)因消費者缺乏需求而大幅削減訂單和產能。
    • 製造商將輕薄視為溢價工程特徵,但消費者認為輕薄代表功能較少(如電池較小),因此應以較低價格販售,顯示了價值認知上的落差
  • 關鍵基礎建設的進展與限制:
    • Bill Gates 支持的 TerraPower Natrium 先進核反應爐在美國懷俄明州清除了主要的環境監管障礙,成為美國首個完成 NRC 環境審查的先進商業核電廠。
    • 電子顯微鏡(EM)自 1930 年代發明以來,已達到原子級別的解析度,但仍存在無法觀察活細胞動態、樣本準備複雜和設備成本高昂等限制。
  • 紐約科技文化與創業精神:
    • 紐約的科技生態圈因城市本質上不是「公司城市」,相較於舊金山灣區,其技術傾向於更紮實、以人為中心,且具有更少的浮誇性質。
    • 當地的社群活動(例如:喜劇駭客日)成功地將開發者、設計師和喜劇演員結合,共同創造利用科技進行社會評論和諷刺的體驗。

科技與人工智慧(AI)趨勢與挑戰

  • 人工智慧通用智能(AGI)的定義與進展:
    • 一個可量化的框架將 AGI 定義為:匹敵受過良好教育的成人在認知上的多功能性與熟練程度。
    • 該框架以 Cattell-Horn-Carroll 理論為基礎,將通用智能(General Intelligence)解構為十個核心認知領域,包含推理、記憶和感知等,並採用人類心理測量工具評估 AI 系統。
    • 當前模型的認知能力表現出「鋸齒狀」的分佈:雖然在知識密集型領域表現出色,但現有的 AI 系統在基礎認知機制(特別是長期記憶儲存)方面存在嚴重的缺陷
    • 應用此框架量化 AGI 分數後,GPT-4 達到 27%,而 GPT-5 則達到 58%,具體量化了進展速度與達成 AGI 之間仍然存在的巨大差距。
  • AI 運算能力部署與合作模式:
    • Anthropic 與 Google 建立了價值數百億美元的雲端合作夥伴關係,Anthropic 將獲得多達 100 萬個 Google Tensor 處理單元(TPU)的使用權。
    • 該交易是 Anthropic 迄今為止最大的 TPU 承諾,預計將在 2026 年提供超過 1 gigawatt 的 AI 運算能力。
    • Anthropic 採取多雲策略,將工作負載分散於 Google TPU、Amazon Tranium 晶片和 NVIDIA GPU,旨在針對價格、效能和電源效率進行微調,這與其競爭對手(例如 Open AI 正在為 Stargate 追求 33 gigawatt 的運算軍火庫)的策略不同。
    • Google 對 Anthropic 的投資已經達到 30 億美元。
  • 大型語言模型(LLM)的著作權與透明度:
    • 自由軟體基金會(FSF)正在研究自由軟體授權與 LLM 互動的問題,因為模型本身和訓練它們的軟體通常都不是自由軟體。
    • FSF 正在調查 LLM 生成的程式碼是否具有著作權,以及是否有方法使其具有著作權,以符合 Copyleft 授權要求。
      • 目前看來,透過人類的努力來增強程式碼,或使用「創意提示」(Creative Prompt)來產生程式碼,可能使其具有著作權。
      • LLM 缺乏引用來源的能力,而開發者通常能夠引用他們撰寫程式碼的靈感來源。
    • FSF 建議,任何接受 LLM 生成程式碼的專案,都應收集相關的中繼資料,以便評估潛在的著作權侵權風險。
      • 應當揭露使用的 LLM 及其版本資訊。
      • 應提供用於創建程式碼的提示(Prompt)。
      • 必須記錄模型的訓練數據資訊和任何輸出使用限制。

智慧型手機市場與消費者行為

  • 輕薄手機(Slim and Light Phones)市場的重大轉變:
    • Apple 正在大幅削減 iPhone Air 的訂單,據報導僅為 9 月份訂單量的 10%,並且可能接近「停止生產」的程度,反映出消費者興趣低於預期。
    • 分析師預計,到 2026 年第 1 季,大多數供應商將減少 Slim 和 Light iPhone 的產能超過 80%。
    • Samsung 方面,據報導已取消了 Galaxy S26 Edge 的開發計畫。
    • Key Bank Capital Markets 發現,市場對 iPhone Air「幾乎沒有需求」,而 S25 Edge 的情況也類似。
  • 輕薄手機的價值感知與取捨:
    • 輕薄手機的價格並不便宜,例如 S25 Edge 的價格為 1,100 美元。
    • 消費者在取得較薄手機的同時,面臨著取捨,包括缺少一個相機、電池容量較小,並可能引發「電池焦慮」(Battery Anxiety)。
    • 製造商將「薄度」(Thinness)視為需要大量工程技術實現的優質功能,並據此定價
    • 消費者的普遍看法是,更薄的手機給人一種「較少」的感覺,暗示功能可能較差,理應成本較低,但高溢價定價與此認知不符
  • 歐洲市場的 App 追蹤透明度(ATT)爭議:
    • Apple 警告,由於廣告商和德國、義大利等國監管機構的強烈遊說,該公司可能會在歐洲禁用其 App 追蹤透明度(ATT)功能。
    • ATT 要求應用程式在追蹤 iOS 和 iPadOS 裝置上的跨應用程式和網站活動時,必須徵得使用者的許可。
    • ATT 措施在歐洲面臨反托拉斯的審查,因為德國初步評估認為,ATT 可能以目前形式構成反競爭行為,原因在於 Apple 自己的應用程式可豁免,且對依賴廣告的競爭對手施加了壓力
    • Apple 承認,禁用 ATT 將對歐洲消費者造成不利影響,但仍會繼續推動該工具的使用。
  • 智慧型手機與依賴性:
    • 手機的臉部辨識、定位、震動警報和聲音警報等技術特徵,使其在生活中扮演著親密、敏感且知情的「響應式存在」,從而與使用者建立情感連結。
    • 這種連結可能導致「幽靈震動症候群」,即使用者會想像手機需要他們的注意力。
    • 現代手機持續收集和儲存生物識別數據,例如透過音訊和動作感應器收集睡眠數據,以及透過更複雜的臉部辨識分析表情來判斷警覺性或情緒狀態
    • 建議使用者可透過調整設定來管理這種依賴性,例如僅在需要導航時開啟地理定位,或選擇密碼鎖定而非臉部辨識,提醒自己裝置是機器而非朋友。

基礎建設與先進技術突破

  • 先進核反應爐技術的監管里程碑:
    • Bill Gates 支持的 TerraPower Natrium 反應爐專案已在懷俄明州清除了聯邦監管的關鍵障礙。
    • 美國核能管理委員會(NRC)成功完成了該專案的最終環境影響聲明(EIS),並未發現可能阻止其施工的不利影響,且已建議向 TerraPower 子公司 USO 頒發施工許可證。
    • Natrium 專案是美國首個成功完成 NRC 環境審查程序的先進商業核電廠技術
  • Natrium 反應爐的設計特點:
    • 該專案採用 345 MWe 的鈉冷式快中子反應爐,是一種與傳統輕水反應爐截然不同的設計。
    • 該技術最大的獨特之處是:它配備了一個熔鹽儲能系統。
    • 該系統能夠儲存熱能,並在需求高峰時將電廠輸出功率從基礎的穩定輸出提升至 500 MWe,使其能夠像一個大型電池一樣運作。
    • Natrium 電廠的策略設計旨在取代該地區現有燃煤設施計畫退役後留下的發電能力。
  • 電子顯微鏡(EM)的誕生與發展:
    • 在 19 世紀末期,科學家們已經接近光學顯微鏡的解析度極限。Ernst Abbe 定義了數值孔徑(Numerical Aperture),並證明即使使用最短波長的紫外線,解析度極限也約為 200 奈米。
    • 1931 年,Ernst Ruska 和 Max Knoll 在柏林工業大學設計了第一個 EM 原型機,透過電磁線圈聚焦電子束來取代玻璃透鏡聚焦光線。
    • 德國物理學家 Hans Busch 在 1926 年和 1927 年發表論文,數學證明了磁線圈可以像光學透鏡一樣聚焦電子束,這項見解被視為「電子光學」的誕生。
    • Ruska 在 1930 年至 1931 年期間,建造了兩級成像系統,總放大倍率達到 14.4 倍,這被認為是第一台電子顯微鏡。
    • Ruska 隨後發明了「極靴透鏡」(Polepiece Lens),利用鐵芯集中磁場,縮短了焦距,大幅提高了放大能力。
    • 到 1938 年,科學家首次使用 EM 拍攝到病毒的照片
  • 現代 EM 技術與限制:
    • 現代冷凍電子顯微鏡(Cryo-EM)能夠解析蛋白質內的單個原子。這項技術在 1980 年代透過 Jacques Dubochet 將水快速冷卻成玻璃態(Vitried)來保存生物分子,並結合 Joachim Frank 的單粒子分析計算方法,實現了突破。
    • 儘管 EM 功能強大,但仍存在限制:樣本必須在真空中成像(無法直接觀察活細胞的動態),樣本必須極薄,且設備體積龐大、成本高昂(數百萬美元),需要專門設施和專業知識操作

開發者工具、雲端服務與技術挑戰

  • NVIDIA DGX Spark 的實際生產挑戰:
    • NVIDIA DGX Spark 在基準測試中呈現的訓練速度(例如:Llama 3.1 8B 的 LoRA 微調速度達 53,657 tokens/秒)在技術上是準確的。
    • 但在實際生產環境中,標準 PyTorch 使用者的 GPU 推論功能存在根本性問題,會產生 inf/nan 錯誤或空回應,且無法在 PyTorch/Transformers 框架下穩定運作,成為生產障礙
    • 長時間運行的訓練任務存在穩定性問題,當訓練時間達到 3 到 8 小時後,GPU 記憶體碎片化會導致系統層級的不穩定和死機
    • 該硬體的限制源於 ARM64 架構、最新的 Blackwell GB10 GPU 和 CUDA 13.0 版本的結合,這些都是最尖端的技術,但生態系統成熟度不足。
    • 建議 DGX Spark 的使用者應實施緩解措施,例如限制訓練會話至 2 到 3 小時,並使用 Ollama 進行生產推論。
  • FlashRecord 開發者工具的特點:
    • FlashRecord 是一個為開發者設計的輕量級 CLI 工具,用於即時螢幕擷取、GIF 錄製和 AI 會話整合。
    • 該工具的關鍵差異化特點在於它是唯一具有直接腳本整合的 Python 原生、跨平台螢幕錄製器
    • 它提供智慧壓縮功能,採用 CWAM 啟發的方法,能夠在 5 秒/50 幀的錄製中實現 99.5% 的檔案大小縮減(例如:25.6 MB 縮減至 0.1 MB)。
    • 核心命令包括 @sc 進行即時螢幕擷取,以及 @sv 錄製螢幕到 GIF。
  • 瀏覽器密碼管理員的優勢與風險:
    • Google Chrome 和 Apple Safari 等瀏覽器內建的密碼管理工具在安全性上已經大幅提升,例如 Chrome 支援 AES 加密,並可選擇設定裝置上加密(類似零知識架構)。
    • 如果使用者目前重複使用少數幾個密碼,則將唯一密碼儲存在瀏覽器中比現有做法更安全
    • 然而,瀏覽器密碼管理員的固有問題在於「將所有雞蛋放在同一個籃子裡」(Putting all your eggs in one basket)。
      • 攻擊者若成功接管高價值目標帳戶(如 Google 帳戶),將同時獲得電子郵件存取權和所有儲存在該帳戶後方的密碼。
      • 瀏覽器密碼管理員通常預設關閉需要 PIN 或生物識別驗證的功能,以減少「摩擦」,使得任何可以存取已登入電腦的人都可以查看或匯出密碼。
    • 商業第三方密碼管理員(如 Proton Pass、1Password、Bitwarden)提供了更多功能,例如電子郵件別名、旅行模式和自我託管選項,並能跨生態系統分享條目。

科技與文化、社會影響

  • 喜劇與科技的融合:
    • Baratunde Thurston 融合了技術背景(曾是電信商業策略顧問)和喜劇背景(脫口秀演員、The Onion 編輯)。
    • 他與 The Onion 的校友創立了 Cultivated Whip,探索技術與喜劇的結合,並發起了「喜劇駭客日」(Comedy Hack Day)活動。
    • 「喜劇駭客日」是一個為期三天的活動,將設計師、開發者和喜劇演員聚集在一起,利用技術打造具有諷刺和幽默的體驗。
    • 這種跨界活動利用科技工具,挑戰了關於誰有資格進行創新的傳統假設,並激發了組織內部更多人創造出原本沒有空間發揮的喜劇內容
  • 紐約科技生態圈的獨特性:
    • 紐約市與華盛頓特區、洛杉磯或舊金山不同,它不是單一產業主導的「公司城市」。
    • 紐約的科技生態圈因城市的緊密性、公共交通和多元文化而呈現出更紮實、以人為中心、較少浮誇的特質。
    • 舊金山灣區的許多科技創造旨在減少摩擦、將個人與社會隔離,但紐約的環境(例如公共空間的使用和交通)迫使人們與現實世界接觸,從而影響了技術的類型和投資方向
  • 網路犯罪與地緣政治:
    • 緬甸軍方關閉了靠近泰國邊境的一個大型網路詐騙中心 KK Park,拘留了超過 2,000 人,並查獲數十台 Starlink 衛星網路終端機。
    • 緬甸是網路詐騙活動的惡名昭彰地點,這些詐騙活動常涉及浪漫情節和虛假投資。
    • 這些中心會以虛假的工作承諾招募其他國家的工人,然後將他們囚禁起來,強迫他們從事犯罪活動。
  • AI 應用中的肖像權與道德問題:
    • OpenAI 的新影片生成應用程式 Sora 2 雖然甫推出即受歡迎,但已被發現有使用者利用其「客串」功能,使用真實女性(包括記者)的臉部製作利基型戀物內容,例如:腹部膨脹和懷孕影片。
    • 即使該記者已開放其肖像供「客串」使用,但她對於自己的臉部被用於潛在的性滿足目的感到極度不安,因為這使得使用真實人物臉部製作此類內容變得異常容易
    • Sora 的內容審核機制似乎預期到了裸露或公開的性內容,但可能未預見到這種非裸露、利基型戀物內容的大量出現。
    • OpenAI 在處理版權和智慧財產權問題上,已表現出「先斬後奏」的模式,例如在接到 King 家族投訴後才暫停使用 Martin Luther King, Jr. 的肖像。

資料來源

聽完碎碎念後,記得按讚、收藏、分享喔~, 科技碎碎念將繼續為您追蹤最新時事,讓您通勤時、空閒時一樣能持續了解最新關鍵話題,下次見!

請注意,內容由 AI 產生,目前仍處於培訓階段,可能存在邏輯偏差或資訊誤差,內容僅供參考,如有謬誤請以原文資訊為主。

留言
avatar-img
留言分享你的想法!
avatar-img
科技碎碎念
4會員
120內容數
哈囉!這邊是科技碎碎念,資訊 x AI時代下,我們將從海量的全球新聞與新知中,透過生成式 AI 彙整出精華懶人包,聚焦全球科技關鍵話題,讓您輕鬆透過閱讀或聆聽掌握趨勢變革。 請注意,內容由 AI 產生,目前仍處於培訓階段,可能存在邏輯偏差或資訊誤差,內容僅供參考,如有謬誤請以原文資訊為主。
科技碎碎念的其他內容
2025/10/24
這本書深入剖析價格的多層次意義,揭示其不僅是商品與服務的標籤,更是商業策略中最重要的槓桿。作者以心理學和行為經濟學為基礎,結合豐富的商業實戰經驗,探討如何透過精準定價來創造價值、提升利潤,並在競爭中脫穎而出。
Thumbnail
2025/10/24
這本書深入剖析價格的多層次意義,揭示其不僅是商品與服務的標籤,更是商業策略中最重要的槓桿。作者以心理學和行為經濟學為基礎,結合豐富的商業實戰經驗,探討如何透過精準定價來創造價值、提升利潤,並在競爭中脫穎而出。
Thumbnail
2025/10/24
文章探討全球 AI 巨頭在基礎設施擴展與產品創新上的競爭,硬體技術的突破,能源供應鏈的創新應用,以及科技企業面臨的法律與合規挑戰。
Thumbnail
2025/10/24
文章探討全球 AI 巨頭在基礎設施擴展與產品創新上的競爭,硬體技術的突破,能源供應鏈的創新應用,以及科技企業面臨的法律與合規挑戰。
Thumbnail
2025/10/23
文章探討 Samsung Galaxy XR 的市場定位與技術特點,AI 助理在內容準確性上的系統性問題,量子運算的突破以及網路攻擊和人工智慧的安全挑戰。
Thumbnail
2025/10/23
文章探討 Samsung Galaxy XR 的市場定位與技術特點,AI 助理在內容準確性上的系統性問題,量子運算的突破以及網路攻擊和人工智慧的安全挑戰。
Thumbnail
看更多
你可能也想看
Thumbnail
雙11於許多人而言,不只是單純的折扣狂歡,更是行事曆裡預定的,對美好生活的憧憬。 錢錢沒有不見,它變成了快樂,跟讓臥房、辦公桌、每天早晨的咖啡香升級的樣子! 這次格編突擊辦公室,也邀請 vocus「野格團」創作者分享掀開蝦皮購物車的簾幕,「加入購物車」的瞬間,藏著哪些靈感,或是對美好生活的想像?
Thumbnail
雙11於許多人而言,不只是單純的折扣狂歡,更是行事曆裡預定的,對美好生活的憧憬。 錢錢沒有不見,它變成了快樂,跟讓臥房、辦公桌、每天早晨的咖啡香升級的樣子! 這次格編突擊辦公室,也邀請 vocus「野格團」創作者分享掀開蝦皮購物車的簾幕,「加入購物車」的瞬間,藏著哪些靈感,或是對美好生活的想像?
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
科技發達,AI智能也越來越發達。 蠢孩子,我每篇小說的圖片都是用AI製作的唷!!
Thumbnail
科技發達,AI智能也越來越發達。 蠢孩子,我每篇小說的圖片都是用AI製作的唷!!
Thumbnail
以下都是轉貼各方觀點,重點可以進一步看發表者跟回應者,我自己也有自身應用場景的murmur : 低利率環境可能回不去 科技掌握在大資金公司時代則是持續下去 工業時代引導一波人才需求 東方社會喜歡考試定生死 學校教育外還有補習班可以協助 既然AI工具隨處可得 培養厚植的各方素養與多元興趣
Thumbnail
以下都是轉貼各方觀點,重點可以進一步看發表者跟回應者,我自己也有自身應用場景的murmur : 低利率環境可能回不去 科技掌握在大資金公司時代則是持續下去 工業時代引導一波人才需求 東方社會喜歡考試定生死 學校教育外還有補習班可以協助 既然AI工具隨處可得 培養厚植的各方素養與多元興趣
Thumbnail
當世界歷經生成式AI (人工智慧)引爆帶來的驚喜,讓科技與人類關係發生質變,同時也替行銷與媒體產業揭開了新篇章。科技革新驅使媒體和內容更加實用與個人化,消費者沉浸在更多開創性內容和獨特體驗中;品牌在快速變化的局勢下,積極活用AI技術進展帶來的機會,讓資訊環境朝著更精準、透明的方向前進,以利持續提升品
Thumbnail
當世界歷經生成式AI (人工智慧)引爆帶來的驚喜,讓科技與人類關係發生質變,同時也替行銷與媒體產業揭開了新篇章。科技革新驅使媒體和內容更加實用與個人化,消費者沉浸在更多開創性內容和獨特體驗中;品牌在快速變化的局勢下,積極活用AI技術進展帶來的機會,讓資訊環境朝著更精準、透明的方向前進,以利持續提升品
Thumbnail
由於 ChatGPT 以及許多 GenAI 的爆發性成長,激發了大家對於 “超越人類智能” 的人工通用智能(AGI,Artificial General Intelligence)的議題,又重新引發了高度關注。 AGI 是指一種具有廣泛認知能力的人工智能系統,能夠像人類一樣理解、學習和適應各種不同
Thumbnail
由於 ChatGPT 以及許多 GenAI 的爆發性成長,激發了大家對於 “超越人類智能” 的人工通用智能(AGI,Artificial General Intelligence)的議題,又重新引發了高度關注。 AGI 是指一種具有廣泛認知能力的人工智能系統,能夠像人類一樣理解、學習和適應各種不同
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News