隨著人工智能(AI)的飛速發展,研究人員不斷尋求最佳途徑來實現更加智能化的系統。無論是在遊戲、語言處理還是機器視覺領域,人工智能系統的性能有了顯著提升。然而,在這一進程中,一些關鍵的問題也浮現出來:AI應該依賴於人類設計的專家知識還是依賴於數據和計算能力的自我學習?
這個問題的答案可以在理查德·薩頓(Richard S. Sutton)於2019年發表的論文《苦澀的教訓》(The Bitter Lesson)中找到。薩頓是強化學習領域的先驅,他的觀點在這篇文章中強烈支持「計算」和「學習」的力量,並對AI的發展方向提供了深刻的見解。本文將深入探討薩頓的理論,並闡明這一「苦澀教訓」對AI未來發展的影響。
薩頓在《苦澀的教訓》中提出了一個看似簡單,但具有深遠影響的觀點:計算能力和通用學習方法是AI發展的關鍵,而依賴於人類專家設計的特定規則或專業知識,雖然可能在短期內有效,但從長期來看這些技術的作用有限。
具體來說,薩頓認為,歷史經驗表明,AI系統依賴通用的學習方法(例如深度學習和強化學習)並結合強大的計算能力,可以通過大量數據自動學習模式和解決問題。隨著計算能力的提升,這些系統能夠不斷改進和擴展,最終超越了那些依賴於人類設計的專業系統。這一觀點挑戰了傳統的AI開發思路,並指引了現代AI研究的發展方向。
薩頓強調,計算能力的增長是推動AI進步的核心動力。當我們擁有更強的計算能力時,我們可以使用更加通用的方法來自動學習解決問題,而不需要依賴於人工設計的特定規則或算法。這樣的通用學習方法可以應用於各個領域,無需針對不同任務進行過多的調整。
舉個例子,早期的AI系統往往需要專家設計的特定規則和策略來解決問題,例如在遊戲AI中編寫固定的下棋策略。然而,隨著計算資源的增強,我們現在可以通過深度學習和強化學習來自動生成策略,例如AlphaGo自學成才,擊敗了世界頂級圍棋選手。這些基於計算和學習的系統展現了巨大的潛力,無需依賴人類的手工設計。
在AI發展歷程中,很多初期的嘗試都依賴於專家系統,即專家設計的特定規則和知識庫來解決特定的問題。然而,薩頓指出,這些專家系統無法與能夠利用大量數據和計算能力的通用學習系統相競爭。通用學習方法能夠通過大量訓練數據和強大的計算資源進行自我優化,最終表現出超越手工設計的性能。
例如,在自然語言處理(NLP)領域,早期系統依賴於語法規則和詞典來解析和生成語言,但這些系統難以應對複雜的語言結構和多變的語境。相比之下,像GPT這樣的模型依賴於Transformer架構,能夠處理大量的文本數據,通過深度學習來自動掌握語言的語法和語義。隨著訓練數據的增加和計算能力的提升,這類模型的表現遠遠超過了傳統的規則系統。
薩頓在論文中引用了多個歷史案例,說明了通用學習方法如何在不斷擴大的計算能力支持下,最終超越了基於專家知識的系統。例如,早期的圖像識別系統試圖通過人工編碼的特徵來識別物體,但這些特徵很難擴展到更複雜的場景。隨著深度學習的發展,神經網絡能夠自動學習到圖像中的關鍵特徵,極大提升了圖像識別的準確率。
這種「苦澀教訓」是指:人類設計的系統在長期發展中無法與計算驅動的通用學習系統相競爭。盡管手工設計的專家系統在短期內能夠解決一些具體問題,但這些系統往往缺乏擴展性和通用性,而通過計算資源自動學習的系統則能夠隨著時間推進而不斷進步。
英偉達AI項目的資深研究科學家Jim Fan,對新提出的縮放定律發表了評論,強調了兩個能在計算上實現「無限縮放」的核心技術:「學習」與「搜索」。這一觀點與《苦澀的教訓》中提出的理論相吻合。薩頓認為,隨著計算資源的持續增長,學習和搜索是能夠持續擴展的技術,而其他技術的擴展性則受到了較大的限制。
學習在人工智慧(AI)中通常指的是通過大量的數據來訓練模型,使其具備分析、理解和生成資訊的能力。例如,GPT系列模型(如GPT-4)利用了Transformer架構來處理大量的文本數據,從而能夠執行自然語言處理、文本生成、翻譯等任務。這類學習方式的核心在於「規模化」,即隨著訓練數據量和計算資源的增加,AI模型可以不斷提高性能和精度。
GPT模型的成功就是「學習」技術無限擴展性的典範。早期的模型如GPT-2僅能生成簡單的語句或段落,而後續的GPT-3、GPT-4由於擁有更多的參數和更強的計算能力,能夠生成更具語意深度、上下文理解能力更強的內容。這正是學習技術隨著計算資源增加而持續擴展的結果。
隨著計算能力的不斷提升,AI模型能夠處理的數據集將更加龐大,學習過程也將更加精細化。例如,通過增加GPU或其他高效能計算資源,AI可以處理數千億甚至數萬億個參數的模型,從而能夠應對更複雜的語言或圖像生成任務。
搜索技術則主要應用於解決複雜問題的過程中。AI系統通過搜索演算法來評估多種可能性,並選擇最優解。例如,在遊戲AI中,AI會計算每個行動選項的所有後果,從中選擇最有利的策略。這個過程依賴於強大的計算能力,因為隨著問題的複雜度增加,搜索空間會呈指數級增長。
在國際象棋或圍棋等棋類遊戲中,AI的搜索技術表現尤為突出。AlphaGo利用深度學習結合蒙特卡洛搜索樹,實現了在極大搜索空間內找到最優策略的能力。這種技術能夠隨著計算資源的增加,進一步擴展其解決問題的規模和複雜性。例如,AlphaGo Zero在完全沒有人類數據的情況下,依賴搜索技術自行學習,達到了超越人類頂尖選手的水平。
搜索技術在許多應用場景中具有重要意義,特別是在處理高維度和大範圍的問題時,例如路徑規劃、圖像識別、醫療診斷等。這些應用都需要評估大量的可能性,並在短時間內做出最優決策。
Jim Fan的評論進一步指出,學習和搜索這兩個技術的結合在實際應用中具有極大的潛力。例如,英偉達的Eureka項目就是將GPT-4生成的獎勵函數應用於機器人學習中,通過搜索和學習相結合的方式,機器人成功完成了超過三十個複雜任務。這表明,AI技術能夠不斷擴展其應用範圍,並解決更加複雜的問題。
Eureka項目的成功展示了學習與搜索技術的協同效應:學習技術能夠通過處理大量數據來生成解決問題的策略,而搜索技術則能夠在多種策略中找到最佳的解決方案。這一組合使得AI能夠在面對複雜的實際環境時做出更為精確的決策。