[科普] 智能的長征：從齒輪、像素到理解世界的空間智慧

——從李飛飛的演講，看人工智慧的真正方向

作者: 成大電機蘇淑茵教授

當我們談論人工智慧時，許多人腦海中浮現的是聊天機器人的流暢對話，或大型語言模型生成的精美圖片。然而，若將時間軸拉長，人工智慧並不是一場突然降臨的技術奇蹟。它其實是人類數千年來一場持續進行的思想工程——一場將「腦中的規則與理解」外化為機械與系統的長征。

一、當思考變成規則：邏輯的誕生

這段歷史可以追溯到古希臘時期。亞里斯多德（Aristotle）提出「三段論法」，嘗試把模糊的人類直覺轉化為可推演的邏輯結構。這是一個關鍵轉折：若思考可以被形式化為規則，那麼它是否也能被機械執行？

到了中世紀，機械鐘錶出現。時間不再只依賴天體觀察，而由齒輪與擺錘精確計算。人類第一次將抽象的認知功能（計時與測量），交給金屬與機械完成。智慧，開始了它的「外化」歷程。

二、符號的力量：機器不只算數

19 世紀，愛達．洛夫萊斯（Ada Lovelace）在為巴貝奇分析機撰寫註解時，提出了一個革命性的洞見：機器處理的並不只是數字，而是「符號」。只要音樂、文字或圖像能被編碼為符號，機器便能對其進行運算與創造。

20 世紀中葉，艾倫．圖靈（Alan Turing）進一步以數學方式定義「可計算性」，並提出「機器能否思考」的哲學與科學考問。人工智慧由此成為一門正式學科。這條脈絡告訴我們：AI 絕非橫空出世，而是長期邏輯化與形式化思考的自然延伸。

三、當機器學會看：視覺革命

然而，早期的人工智慧雖然擅長符號計算，卻對物理世界「視而不見」。2000 年代，李飛飛（Fei-Fei Li）意識到：若沒有大規模視覺資料，機器不可能真正理解世界。她推動建立了 ImageNet，收集並標註了數千萬張影像資料。

2012 年，深度神經網路在 ImageNet 競賽中取得大幅突破，結合 NVIDIA GPU 的運算能力，正式開啟深度學習的浪潮。這不僅是技術的進步，更是感知能力的躍遷——AI 從抽象的符號計算，走向對現實世界的辨識與理解。

四、語言之外：走向空間智慧

近年來，大型語言模型引發全球關注。然而，李飛飛在 2024 年的 TED 演講中提醒社會：語言能力並非智慧的全部。她指出，真正通向通用人工智慧（AGI）的關鍵，在於「空間智慧」（Spatial Intelligence）。

視覺在地球生命演化中已有約 5.4 億年歷史，而語言僅約 50 萬年。人類理解世界，首先依賴的是對三維空間、物理因果與行動決策的掌握。空間智慧意味著機器不只是「描述」世界，而是「理解」世界：知道杯子傾倒會流出水，知道門在空間中的位置，知道如何避開障礙、走入房間。這是一種進入「物理世界」的智慧，而非停留在螢幕上的文字生成。

結語：科技是人類能力的延伸

將人工智慧等同於語言模型，是對這段漫長歷史的過度簡化。從亞里斯多德的邏輯規則到洛夫萊斯的符號洞見；從圖靈的數學框架到 ImageNet 的視覺革命，再到今日關於空間智慧的討論——這是一場跨越數千年的思想延續。

科技的目標從來不是取代人類，而是延伸人類的能力邊界。人工智慧真正的意義，不在於它能否說話像人，而在於它是否能與我們一起理解世界。而這條長征，仍在繼續。

【參考文獻】

Aristotle. Prior Analytics (Part of the Organon), c. 350 BC.
Lovelace, A. A. (1843). "Notes by the Translator" to L. F. Menabrea's "Sketch of the Analytical Engine Invented by Charles Babbage."
Turing, A. M. (1950). "Computing Machinery and Intelligence." Mind, 59(236), 433-460.
Li, F. F. (2024, April). "With spatial intelligence, AI will understand the real world." TED Talk.
Li, F. F. (2023). The Worlds I See: Curiosity, Hope, and AI-Powered Discovery. Flatiron Books.