AI教母李飛飛的下一個目標:從 ImageNet 到「空間智慧」,為何 3D 世界可能是 AGI 的最後一塊拼圖?

更新 發佈閱讀 7 分鐘

在 AI 的歷史洪流中,有幾個關鍵時刻徹底改變了技術的走向。2012 年,一個名為 ImageNet 的龐大資料集,與一個叫做 AlexNet 的神經網路模型相遇,點燃發展至今的深度學習之火焰。而這一切的幕後推手之一,正是被譽為「AI 教母」的李飛飛(Dr. Fei-Fei Li)。十多年後,當全世界都還在為大型語言模型(LLM)的驚人能力喝采時,李飛飛卻早已將目光投向下一個更為艱鉅的挑戰「空間智慧 (Spatial Intelligence)」,並且更毅然決然地從學術界再次投身創業,目標是構建 3D 世界的基礎模型。

TN科技筆記將節錄 Y Combinator 跟李飛飛博士在這場對談中的重點段落,同時也特別推薦讀者們有空一定要親自去觀看 Y Combinator 頻道上的完整影片,啟發的感覺必定會更加深刻!


Fei-Fei Li: Spatial Intelligence is the Next Frontier in AI

ImageNet 如何點燃深度學習之火

要理解李飛飛的下一個目標,我們必須先回到故事的開頭。在 ChatGPT 還不存在、AI 一詞甚至不為大眾所知的 2007 年,當時的電腦視覺領域,演算法效果差強人意,大家都在苦苦鑽研模型。但當時還是普林斯頓大學助理教授的李飛飛敏銳地意識到,機器學習的核心目標是「泛化」(Generalization),而要讓模型具備泛化能力,就離不開大量的數據,然而當時根本沒有這樣的數據集。

她回憶道:「我們必須下一個大膽的賭注,我們必須相信,機器學習的範式轉移,必須由數據驅動的方法來引領。」

這個賭注就是 ImageNet。這個想法在當時看來近乎瘋狂:從網際網路上抓取十億張圖片,並為它們建立完整的視覺分類標籤。這是一個規模空前、極其耗費人力的工程。但李飛飛和她的團隊堅信,這將會指引未來 AI 前進的方向。為了讓全世界最聰明的頭腦一起解決這個問題,他們做了兩件關鍵的事:

  1. 完全開源:從第一天起,他們就決定將 ImageNet 開放給整個研究社群。
  2. 舉辦挑戰賽:設立 ImageNet 挑戰賽(ILSVRC),邀請全球的團隊來測試他們的演算法,看誰能最準確地識別圖片中的物體。

2012 的突破時刻:當 AlexNet 遇上 ImageNet

挑戰賽的前兩年,模型的錯誤率雖然有所下降,但並沒有出現決定性的突破。直到 2012 年,來自多倫多大學 Geoffrey Hinton 的團隊提交後來大名鼎鼎的 AlexNet 模型。它採用了一種在 80 年代就被提出、但一直未受重視的演算法「卷積神經網路(CNN)」。

更關鍵的是,AlexNet 團隊首次將 GPU 拼在一起進行運算。這一刻,AI 的突破時刻終於來臨了:

  • 龐大的數據 (Big Data): ImageNet 提供了前所未有的訓練素材。
  • 強大的算力 (Compute): GPU 的並行計算能力讓訓練深度模型成為可能。
  • 先進的演算法 (Algorithm): 深度卷積神經網路展現了驚人的學習潛力。

AlexNet 在當年的挑戰賽中,將錯誤率大幅降低到 15.3%,震驚了整個學界,也宣告深度學習時代的來臨,讓李飛飛從一個最初的夢想「讓機器看懂物體」,迅速進化到下一個夢想「讓機器講述一個場景的故事」。而這個目標也在短短幾年後, Andrej Karpathy 就透過 Image Captioning 技術實現了。這也促使她開始思考一個更宏大的問題。

空間智慧 (Spatial Intelligence) 的宏大藍圖

李飛飛開始將目光從 2D 的平面,轉向我們所處的、真實而複雜的 3D 物理世界。這就是她現在全力以赴的領域「空間智慧(Spatial Intelligence)」。而李飛飛也從演化和物理的角度,提出了幾個深刻的理由,解釋為什麼理解 3D 世界可能是比語言更根本、也更困難的挑戰:

  1. 維度的複雜度 (1D vs. 3D/4D):語言本質上是一維的序列。單詞、音節按順序排列。而我們所處的世界是三維的空間,加上時間軸甚至是四維。這在組合複雜度上是指數級的增長。
  2. 資訊的塌縮 (3D to 2D Projection):無論是我們的視網膜還是相機感測器,接收到的都是 3D 世界到 2D 平面的投影。從 2D 圖像反推出 3D 結構,在數學上充滿模糊性和不確定性。
  3. 生成與重建的二元性 (Generative vs. Reconstructive):語言是純粹的生成信號。自然界本來沒有語言,它完全由人類大腦創造。但物理世界不同,它既需要重建(理解現實世界的物理規律),也需要生成(創造虛擬的 3D 世界)。
  4. 數據的缺乏(Data Scarcity):網際網路是語言模型的數據金礦。但關於 3D 空間的結構化數據在哪裡?李飛飛說:「它們都在我們的腦海裡」,但並不像網路上的文本那樣容易獲取。

李飛飛引用演化史來強調這一點:複雜的視覺系統花了 5.4 億年才演化出來,並引發了物種大爆發;而人類複雜的語言,演化時間不到 50 萬年。在她看來,理解、推理、並在 3D 世界中行動的「空間智慧」,是通往 AGI 不可或缺的一塊拼圖。

TN科技筆記的個人觀點

  • 對「問題」的定義能力:當所有人都聚焦在如何讓模型更大、更強時,她卻從演化、腦科學和物理學中汲取靈感,提出了「空間智慧」是比語言更根本的智慧形式。這種跨學科的宏大敘事。這不是在追逐熱點,而是在創造下一個熱點。
  • 潛在的風險與挑戰:最大的挑戰是數據,如何高效、低成本地獲取大量的、高品質的 3D 數據,是整個領域都需要解決的核心難題。此外,空間智慧的許多應用(如機器人和元宇宙)高度依賴未來硬體的發展,這也增添了許多不確定性。
  • 對我們的啟示:我們與數位世界的互動方式或許即將迎來下一次變革。從文字、圖片到影片,下一個主流媒介很可能是互動式的 3D 空間。這將徹底改變遊戲、娛樂、線上購物、遠程協作,甚至是我們感知現實的方式。

支持TN科技筆記,與科技共同前行

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者們,讓我更加有動力為各位帶來科技新知!

留言
avatar-img
留言分享你的想法!
avatar-img
TN科技筆記(TechNotes)的沙龍
46會員
154內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2025/07/04
TN科技筆記將節錄重點介紹 Ilya 的獲勝策略,並分享其在實戰中積累的寶貴經驗,幫助讀者理解如何在企業級應用中實踐 RAG。
Thumbnail
2025/07/04
TN科技筆記將節錄重點介紹 Ilya 的獲勝策略,並分享其在實戰中積累的寶貴經驗,幫助讀者理解如何在企業級應用中實踐 RAG。
Thumbnail
2025/07/01
在這項實驗中,Anthropic 讓其大型語言模型 Claude Sonnet 3.7(化名「Claudius」)經營一家小型自動化商店。TN科技筆記將待各位來看看 Project Vend 的實驗設計、Claudius 的表現與失誤,以及這項實驗為 AI 經濟應用帶來的啟示。
Thumbnail
2025/07/01
在這項實驗中,Anthropic 讓其大型語言模型 Claude Sonnet 3.7(化名「Claudius」)經營一家小型自動化商店。TN科技筆記將待各位來看看 Project Vend 的實驗設計、Claudius 的表現與失誤,以及這項實驗為 AI 經濟應用帶來的啟示。
Thumbnail
2025/06/29
2025年6月25日,Google 推出了一款開源 AI 代理工具——Gemini CLI,將其強大的 Gemini 模型直接加入開發者的終端機(Terminal)環境,挑戰現有市場強者 Anthropic 的 Claude Code。TN科技筆記將深入介紹兩者!
Thumbnail
2025/06/29
2025年6月25日,Google 推出了一款開源 AI 代理工具——Gemini CLI,將其強大的 Gemini 模型直接加入開發者的終端機(Terminal)環境,挑戰現有市場強者 Anthropic 的 Claude Code。TN科技筆記將深入介紹兩者!
Thumbnail
看更多
你可能也想看
Thumbnail
參加者探討AI在教育領域的廣泛應用及其面臨的挑戰,強調如何與AI共存並提升自我能力,李明峰的分享啟發參與者自我潛力的認識,並在AI圖像生成遊戲環節中,助教幫助學生理解生成過程,展現AI在教學上的無限可能性,這篇文章探討了有效的教學方式和學習者的不同經驗,鼓勵更多人關注生成式AI的應用。
Thumbnail
參加者探討AI在教育領域的廣泛應用及其面臨的挑戰,強調如何與AI共存並提升自我能力,李明峰的分享啟發參與者自我潛力的認識,並在AI圖像生成遊戲環節中,助教幫助學生理解生成過程,展現AI在教學上的無限可能性,這篇文章探討了有效的教學方式和學習者的不同經驗,鼓勵更多人關注生成式AI的應用。
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
AI的世界充滿了創新和潛力,涵蓋了許多領域,包括但不限於機器學習,自然語言處理、電腦視覺和機器人技術。AI對人類社會的影響是複雜而多層面的,既帶來了巨大的機遇,也提出了新的挑戰。社會需要在技術發展和倫理規範之間找到平衡,確保AI技術的應用能夠真正造福人類。
Thumbnail
AI的世界充滿了創新和潛力,涵蓋了許多領域,包括但不限於機器學習,自然語言處理、電腦視覺和機器人技術。AI對人類社會的影響是複雜而多層面的,既帶來了巨大的機遇,也提出了新的挑戰。社會需要在技術發展和倫理規範之間找到平衡,確保AI技術的應用能夠真正造福人類。
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
當身邊還沒有多少人知道ChatGPT的時候,江文彬就已經從外國媒體得知因為微軟公司與研發AI人工智慧的OpenAI公司合作,讓微軟公司開發的搜尋引擎軟體Bing得以結合人工智慧的技術,這個技術上的結合讓搜尋引擎的使用模式有了顛覆以往的進步,也因此使得OpenAI公司開發的人工智慧聊天機器人ChatG
Thumbnail
當身邊還沒有多少人知道ChatGPT的時候,江文彬就已經從外國媒體得知因為微軟公司與研發AI人工智慧的OpenAI公司合作,讓微軟公司開發的搜尋引擎軟體Bing得以結合人工智慧的技術,這個技術上的結合讓搜尋引擎的使用模式有了顛覆以往的進步,也因此使得OpenAI公司開發的人工智慧聊天機器人ChatG
Thumbnail
作者認為AI,它不特屬於哪一個產業,在一定時間成熟之後,它充斥你我生活之中,就是像水電一樣的自然。有很多人還搞不清楚它的未來發展到哪裡? 當這變化還很劇烈時,過早投入反而浪費時間與成本,所以作者的洞見是:什麼是你我最珍貴的價值?
Thumbnail
作者認為AI,它不特屬於哪一個產業,在一定時間成熟之後,它充斥你我生活之中,就是像水電一樣的自然。有很多人還搞不清楚它的未來發展到哪裡? 當這變化還很劇烈時,過早投入反而浪費時間與成本,所以作者的洞見是:什麼是你我最珍貴的價值?
Thumbnail
0. 剛發現台灣人工智慧學校侯秘書長是強者我同學夫人,他在聯發科搞AI,買股票找誰大家應該知道。 1. 推動AI融入課程(尤其在人社領域)最大的困難和挑戰在於心態mindset的轉變,要由‘人機(二元)對立’換成‘人機協作’。 2. 絕大部分教學現場的問題來自於1.,比如質疑AI會取代人、著
Thumbnail
0. 剛發現台灣人工智慧學校侯秘書長是強者我同學夫人,他在聯發科搞AI,買股票找誰大家應該知道。 1. 推動AI融入課程(尤其在人社領域)最大的困難和挑戰在於心態mindset的轉變,要由‘人機(二元)對立’換成‘人機協作’。 2. 絕大部分教學現場的問題來自於1.,比如質疑AI會取代人、著
Thumbnail
創造人工智慧電腦『紅后』|AIoT智慧聯網是指人工智慧和物聯網的結合,其發展已經帶動了產業發展的新趨勢。本文討論了AI應用在不同領域中的潛力和影響,以及人類對於AI的調整和監管措施。
Thumbnail
創造人工智慧電腦『紅后』|AIoT智慧聯網是指人工智慧和物聯網的結合,其發展已經帶動了產業發展的新趨勢。本文討論了AI應用在不同領域中的潛力和影響,以及人類對於AI的調整和監管措施。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News