在 AI 的歷史洪流中,有幾個關鍵時刻徹底改變了技術的走向。2012 年,一個名為 ImageNet 的龐大資料集,與一個叫做 AlexNet 的神經網路模型相遇,點燃發展至今的深度學習之火焰。而這一切的幕後推手之一,正是被譽為「AI 教母」的李飛飛(Dr. Fei-Fei Li)。十多年後,當全世界都還在為大型語言模型(LLM)的驚人能力喝采時,李飛飛卻早已將目光投向下一個更為艱鉅的挑戰「空間智慧 (Spatial Intelligence)」,並且更毅然決然地從學術界再次投身創業,目標是構建 3D 世界的基礎模型。
TN科技筆記將節錄 Y Combinator 跟李飛飛博士在這場對談中的重點段落,同時也特別推薦讀者們有空一定要親自去觀看 Y Combinator 頻道上的完整影片,啟發的感覺必定會更加深刻!
Fei-Fei Li: Spatial Intelligence is the Next Frontier in AI
ImageNet 如何點燃深度學習之火
要理解李飛飛的下一個目標,我們必須先回到故事的開頭。在 ChatGPT 還不存在、AI 一詞甚至不為大眾所知的 2007 年,當時的電腦視覺領域,演算法效果差強人意,大家都在苦苦鑽研模型。但當時還是普林斯頓大學助理教授的李飛飛敏銳地意識到,機器學習的核心目標是「泛化」(Generalization),而要讓模型具備泛化能力,就離不開大量的數據,然而當時根本沒有這樣的數據集。
她回憶道:「我們必須下一個大膽的賭注,我們必須相信,機器學習的範式轉移,必須由數據驅動的方法來引領。」
這個賭注就是 ImageNet。這個想法在當時看來近乎瘋狂:從網際網路上抓取十億張圖片,並為它們建立完整的視覺分類標籤。這是一個規模空前、極其耗費人力的工程。但李飛飛和她的團隊堅信,這將會指引未來 AI 前進的方向。為了讓全世界最聰明的頭腦一起解決這個問題,他們做了兩件關鍵的事:
- 完全開源:從第一天起,他們就決定將 ImageNet 開放給整個研究社群。
- 舉辦挑戰賽:設立 ImageNet 挑戰賽(ILSVRC),邀請全球的團隊來測試他們的演算法,看誰能最準確地識別圖片中的物體。
2012 的突破時刻:當 AlexNet 遇上 ImageNet
挑戰賽的前兩年,模型的錯誤率雖然有所下降,但並沒有出現決定性的突破。直到 2012 年,來自多倫多大學 Geoffrey Hinton 的團隊提交後來大名鼎鼎的 AlexNet 模型。它採用了一種在 80 年代就被提出、但一直未受重視的演算法「卷積神經網路(CNN)」。
更關鍵的是,AlexNet 團隊首次將 GPU 拼在一起進行運算。這一刻,AI 的突破時刻終於來臨了:
- 龐大的數據 (Big Data): ImageNet 提供了前所未有的訓練素材。
- 強大的算力 (Compute): GPU 的並行計算能力讓訓練深度模型成為可能。
- 先進的演算法 (Algorithm): 深度卷積神經網路展現了驚人的學習潛力。
AlexNet 在當年的挑戰賽中,將錯誤率大幅降低到 15.3%,震驚了整個學界,也宣告深度學習時代的來臨,讓李飛飛從一個最初的夢想「讓機器看懂物體」,迅速進化到下一個夢想「讓機器講述一個場景的故事」。而這個目標也在短短幾年後, Andrej Karpathy 就透過 Image Captioning 技術實現了。這也促使她開始思考一個更宏大的問題。
空間智慧 (Spatial Intelligence) 的宏大藍圖
李飛飛開始將目光從 2D 的平面,轉向我們所處的、真實而複雜的 3D 物理世界。這就是她現在全力以赴的領域「空間智慧(Spatial Intelligence)」。而李飛飛也從演化和物理的角度,提出了幾個深刻的理由,解釋為什麼理解 3D 世界可能是比語言更根本、也更困難的挑戰:
- 維度的複雜度 (1D vs. 3D/4D):語言本質上是一維的序列。單詞、音節按順序排列。而我們所處的世界是三維的空間,加上時間軸甚至是四維。這在組合複雜度上是指數級的增長。
- 資訊的塌縮 (3D to 2D Projection):無論是我們的視網膜還是相機感測器,接收到的都是 3D 世界到 2D 平面的投影。從 2D 圖像反推出 3D 結構,在數學上充滿模糊性和不確定性。
- 生成與重建的二元性 (Generative vs. Reconstructive):語言是純粹的生成信號。自然界本來沒有語言,它完全由人類大腦創造。但物理世界不同,它既需要重建(理解現實世界的物理規律),也需要生成(創造虛擬的 3D 世界)。
- 數據的缺乏(Data Scarcity):網際網路是語言模型的數據金礦。但關於 3D 空間的結構化數據在哪裡?李飛飛說:「它們都在我們的腦海裡」,但並不像網路上的文本那樣容易獲取。
李飛飛引用演化史來強調這一點:複雜的視覺系統花了 5.4 億年才演化出來,並引發了物種大爆發;而人類複雜的語言,演化時間不到 50 萬年。在她看來,理解、推理、並在 3D 世界中行動的「空間智慧」,是通往 AGI 不可或缺的一塊拼圖。
TN科技筆記的個人觀點
- 對「問題」的定義能力:當所有人都聚焦在如何讓模型更大、更強時,她卻從演化、腦科學和物理學中汲取靈感,提出了「空間智慧」是比語言更根本的智慧形式。這種跨學科的宏大敘事。這不是在追逐熱點,而是在創造下一個熱點。
- 潛在的風險與挑戰:最大的挑戰是數據,如何高效、低成本地獲取大量的、高品質的 3D 數據,是整個領域都需要解決的核心難題。此外,空間智慧的許多應用(如機器人和元宇宙)高度依賴未來硬體的發展,這也增添了許多不確定性。
- 對我們的啟示:我們與數位世界的互動方式或許即將迎來下一次變革。從文字、圖片到影片,下一個主流媒介很可能是互動式的 3D 空間。這將徹底改變遊戲、娛樂、線上購物、遠程協作,甚至是我們感知現實的方式。
支持TN科技筆記,與科技共同前行
我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡
在此也感謝每個月持續請我喝杯咖啡的讀者們,讓我更加有動力為各位帶來科技新知!