Google 前 CEO Eric Schmidt 近期在 Stanford 大學 CS323 課堂上的訪談提到,隨著人工智慧技術快速進步,AI 模型的能力已經遠超我們的預期,其中超大上下文窗口(Very large context windows)和文本到行動(Text to action)這兩項技術尤為值得關注。這些技術的結合不僅使 AI 能夠處理更複雜的任務,也為未來的創新鋪平了道路。
🔥 超大上下文窗口
上下文窗口指的是 AI 在處理任務時能夠同時考慮的文本範圍。傳統的 AI 模型受限於上下文窗口,所能處理的文字量有限;但隨著技術的進步,現今的 AI 模型已能處理包含數百萬個 Token 的上下文,這意味著 AI 能夠理解並處理更大範圍的資料
。換句話說,AI 如今能一次性分析一本書,甚至是整套書籍,並據此做出更精準的決策。
得力於這個技術的進展,Anthropic 將上下文窗口從 20 萬個 Token 擴展到數百萬個,大大的增強了 AI 的短期記憶能力,使其能在更為複雜的情境下進行推理。這也意味著,未來的 AI 不僅能回答問題,還能從大量資訊中提取深刻見解。正如美國電腦科學家 Eric Horvitz 最近討論的那樣,AI 現今能處理和理解比以往大得多的上下文,進一步提升了其信息處理能力。
🔥 文本到行動
除了擴展上下文窗口,另一個正在快速發展的技術是文本到行動。這項技術的核心在於將文本指令直接轉化為具體的行動
,而不僅僅是生成新的文本。傳統的語言模型通常只負責文本生成,而文本到行動技術則可以允許 AI 根據指令執行操作,例如調用 API、執行程式碼,甚至控制實體設備。
這項技術的應用範圍廣泛,從自動化工作流程、智能客服系統到更為複雜的 AI Agent 任務均能受益。在這些情境下,AI 不僅理解指令,還能基於分析結果執行動作,大幅提高自動化任務的效率和準確性。例如,AI 可以根據使用者的語音指令,自動調整家中智能設備的設定,或是在企業環境中根據指令自動生成並執行複雜的商務報告。
而 Andrew Ng 最近也提到,AI Agent 可能在 2024 年實現突破性進展。他以撰寫文章為例,現在的 AI 逐字逐句地書寫文章,雖然效果不錯,但未來的 AI Agent 將能首先生成大綱,然後逐步填充內容並檢查邏輯順序,從而顯著提升文章質量。這一邏輯同樣適用於其他任務,並將引領一場真正的技術革命。
🔥 未來 AI 的可能性
總結來說,將超大上下文窗口與文本到行動技術結合起來,AI 的能力將進入一個全新階段。這樣的整合意味著,AI 不僅能夠處理和理解大量複雜的文本資料,還能在此基礎上進行決策並付諸行動
。這將開啟許多此前無法實現的能力,使信息處理更為即時和全面。
這對多數產業來說,都將帶來顛覆性的變革。未來的 AI 系統將能夠在閱讀完多本書籍後,快速生成高質量的分析報告,並立即執行後續行動,例如撰寫程式碼、調整商業策略或進行市場分析。這種強大的整合能力不僅提升了 AI 的實用性,也使得人工智慧在更多領域中的應用成為可能。
參考資料