隨著人工智慧(AI)技術的快速進步,傳統上依賴「資料集越大越好」的模型訓練理念正逐漸顯現出瓶頸。數據資源枯竭、訓練成本飆升以及能源需求激增,讓業界重新思考如何在有限資源下提升模型效能。為應對這些挑戰,AI 科學家開始嘗試創新的訓練技術,如「測試時運算」和「推理計算」,這些新方法或將改變產業格局。
目前,訓練大型語言模型(LLM)需要耗費數百萬美元,並伴隨硬體故障風險,導致整個訓練過程冗長且昂貴。隨著可用數據逐漸枯竭,尋找高品質數據變得愈加困難。此外,能源短缺問題也使得模型訓練對環境和基礎設施造成更大壓力。
「測試時運算」(test-time compute)成為科學家的重要探索方向。該技術允許模型在推理階段動態分配計算資源,特別是在處理複雜任務時發揮關鍵作用。例如,模型可生成多個解答並選擇最佳結果,而非僅依賴單一答案,從而提高精確度和效率。
OpenAI 的最新「o1」模型引入了鏈式思考(chain-of-thought)功能,實現類似人類的多步推理,顯著提升了在數學與邏輯問題上的表現。該模型還展現出超越傳統大型模型的效能,降低了對硬體規模的依賴。
Google DeepMind 和 Anthropic 等業者正在積極推進「推理計算」技術,旨在提升模型效能與安全性。DeepMind 的 Gemini 系列專注於動態分配計算資源,而 Anthropic 的 Claude 3 則以強化多步推理能力及安全性見長。這些技術不僅提高運算效率,也減少對能源的依賴。
隨著「推理計算」技術的普及,AI 訓練對硬體的需求也在轉型。專用晶片(如 ASIC 和 FPGA)正逐漸取代傳統高性能 GPU,成為未來的關鍵硬體解決方案。此外,分散式計算架構的興起,將加速企業從集中式訓練轉向邊緣計算與雲端推理的過程,減少成本和能源消耗。
OpenAI 聯合創始人 Ilya Sutskever 表示,AI 技術正處於一個探索與發現的新時代,各家公司試圖突破傳統瓶頸,以更靈活的方式應對資源與效能的限制。隨著測試時運算、推理計算等技術的進一步發展,AI 不僅能更有效率地解決複雜問題,也為業界帶來了可持續發展的新機遇。
這一技術革新或將重塑 AI 產業格局,使未來的 AI 系統更加靈活、高效且符合環境友好目標。