大語言模型產品化

更新於 2025/03/16發佈於 2025/03/16閱讀時間約 9 分鐘

過去幾年間，有許多關於人工智慧發展下一個週期可能是什麼的推測。是代理人（Agents）？推理器（Reasoners）？真正的多模態（Multimodality）？

我認為現在是時候明確指出：模型即產品。

當前研究和市場發展中的所有因素都朝這個方向推進。

在GPT-4.5發布背後，我觀察到通用型模型的發展稍微停滯，因為模型能力正在線性增長，而計算成本卻呈現幾何曲線。即使過去兩年在訓練和基礎架構上取得了有效率的提升，OpenAI仍無法以長期可負擔的價格部署這個巨大的模型。

有目的的訓練效果比預期好得多。強化學習和推理的結合意味著模型可以開始學習特定任務。這不是機器學習，也不是通用型模型，而是一種新的妥協。它甚至是小型模型突然在數學上變得非常出色。它是編碼模型不再僅僅生成程式碼，而是自己管理整個程式碼儲存庫。它是Claude在上下文資訊非常有限且沒有專門訓練的情況下玩寶可夢。

推論成本正在自由下降。最近來自DeepSeek的優化意味著，所有可用的GPU可以覆蓋整個地球人口每天來自前沿模型的10k個標記的需求。根本沒有這種水平的需求。銷售標記的經濟對模型提供者而言不再有效：他們必須在價值鏈中向上移動。這也是一個令人不安的方向。所有投資者都在押注應用層。在人工智慧演化的下一階段，應用層很可能是第一個被自動化和顛覆的。

即將到來的模型形態

過去幾週，我們看到了這新一代模型作為產品的兩個典型例子：OpenAI的DeepResearch和Claude Sonnet 3.7。

我讀到了許多關於DeepResearch的誤解，這不僅僅是因為開放和封閉克隆的增加。OpenAI並沒有在O3之上構建一個包裝器。他們訓練了一個全新的模型，能夠內部執行搜尋，無需任何外部呼叫、提示或協調：

「模型學習了核心瀏覽能力（搜尋、點擊、滾動、解釋檔案等等）以及如何推理合成大量網站以找到特定資訊片段或通過對這些瀏覽任務的強化學習訓練撰寫全面報告。」

DeepResearch不是標準的LLM，也不是標準的聊天機器人。它是一種新形式的研究語言模型，專門設計用於執行端到端的搜尋任務。對於每個認真使用它的人來說，差異立即顯而易見：模型生成具有一致結構和底層源分析過程的冗長報告。相比之下，正如Hanchung Lee所強調的，所有其他DeepSearch，包括Perplexity和Google變體，只是你常見的模型加上一些調整：

「Google的Gemini和Perplexity的聊天助手也提供『深度研究』功能，但兩者都沒有發布關於他們如何為任務優化模型或系統的任何文獻，也沒有進行實質性的定量評估，所以我們假設所做的微調工作並不重要。」

Anthropic已經更清晰地闡明了他們當前的願景。在12月，他們引入了一個有爭議但在我看來是正確的代理模型定義。與DeepSearch類似，代理必須在內部執行目標任務：它們「動態指導自己的流程和工具使用，控制如何完成任務」。

大多數代理初創公司目前構建的不是代理，而是工作流程，即「通過預定義的代碼路徑協調LLM和工具的系統」。工作流程可能仍然帶來一些價值，特別是對於垂直應用。然而，對於目前在大型實驗室工作的任何人來說，顯而易見的是，自主系統的所有重大進展都將通過首先重新設計模型來實現。

我通過發布Claude 3.7看到了這一點的具體示範，這是一個主要針對複雜程式碼進行訓練的模型。所有像Devin這樣的工作流程適應在SWE基準測試上都有了重大提升。所有這一切在實踐中意味著：置換複雜性。訓練預期各種行動和邊緣情況，使部署變得更加簡單。但在這個過程中，大部分價值現在由模型訓練者創造，並可能最終被捕獲。簡而言之，Claude旨在打破和取代當前的工作流程，就像這個來自llama index的基本「代理」系統一樣。

訓練或是被訓練

再次強調：大型實驗室正在整合功能、向上進入應用層，並嘗試在那裡獲取最大價值。模型提供者和包裝者之間的蜜月期已經結束，服務開發可能有幾個發展方向：

對Claude Code和DeepSearch來說。你會注意到DeepSearch不是通過API提供，而是用來為高級訂閱創造價值。Claude Code是一個極簡的終端整合。奇怪的是，雖然Claude 3.7在Claude Code中運作完美，但Cursor在使用它時遇到困難，我已經看到幾個用戶因此取消了訂閱。真正的人工智慧代理不關心預先存在的工作流程：它們取代了工作流程。
最高知名度的包裝者現在正在爭先恐後地成為混合式人工智慧訓練公司。他們確實擁有一些訓練能力，雖然很少被宣傳。Cursor的主要資產之一是他們的小型自動完成模型。WindSurf有他們內部便宜的程式碼模型Codium。Perplexity一直依賴於自家分類器來進行路由，最近轉向訓練自己的DeepSeek變體用於搜尋目的。
對於較小的包裝者來說，不會有太大變化，只是可能更加依賴不受特定影響的推論提供者，如果大型實驗室完全放棄這個市場。我也預期會看到更多的焦點放在使用者介面上，這仍然被嚴重低估，因為更多的通用模型可能會整合常見的部署任務，特別是針對RAG。

簡而言之，對於大多數成功的包裝者來說，困境很簡單：訓練或被訓練。他們現在所做的不僅是為大型實驗室提供免費的市場研究，更甚者，由於所有輸出最終都是通過模型提供者生成的，他們提供了免費的數據設計和生成。

之後會發生什麼很難被猜到。成功的包裝者確實有了解他們垂直領域的優勢，並積累了大量寶貴的用戶資料。然而，根據我的經驗，從模型到應用層比從頭開始建立全新的訓練能力要容易。包裝者可能也沒有得到投資者的幫助。據我所聽說的，對訓練存在如此大的負擔，他們幾乎必須隱藏將成為他們最關鍵價值的東西。

強化學習尚未被定價

這讓我談到實際痛苦的部分：目前所有人工智慧投資都是相關的。基金在以下假設下運作：

真正的價值僅存在於獨立於模型層的應用層，這一層最有可能顛覆現有市場。
模型提供者只會以不斷降低的價格銷售標記，使包裝者反過來更有利可圖。
封閉模型包裝將滿足所有現有需求，即使在監管部門對外部依賴有長期擔憂的受監管行業。
建立任何訓練能力只是浪費時間。這不僅包括預訓練，而且包括所有形式的訓練。

我擔心這越來越像是一個冒險的賭注和一個實際的市場失敗，無法準確定價最新的技術發展，特別是在強化學習方面。在當前的經濟生態系統中，風險基金旨在尋找不相關的投資。他們不會打敗標普500指數，但這不是大型機構投資者所尋找的：他們想要打包風險，確保在糟糕的年份至少有些事情會有好的發展。模型訓練就像一個教科書中完美的例子：在大多數西方經濟體正在走向衰退的情況下，有大量的潛力進行顛覆。然而，模型訓練者無法籌集資金，或至少不是以通常的方式。Prime Intellect是少數幾個新的西方人工智慧訓練公司之一，有明確的潛力成為前沿實驗室。然而，儘管他們的成就包括訓練第一個去中心化人工智慧大型語言模型，他們仍然很難籌集比普通包裝者更多的資金。

除此之外，除了大型實驗室，當前的訓練生態系統非常小。你可以在手上數清這些公司：Prime Intellect、HuggingFace預訓練團隊等等，連同一些更學術的參與者（Allen AI、Eleuther...），他們建立並支持大多數當前的開放訓練基礎設施。在歐洲，我知道至少有7-8個人工智慧大型語言模型項目將整合。

當前的募資環境有著深層次的問題。即使是OpenAI現在也感受到了。最近，對於目前矽谷創業公司環境中缺乏「垂直強化學習」有一些感受到的煩躁。

如果模型是產品，你不一定能夠獨自建立它，但搜尋和程式碼是容易做的：兩年來的主要使用案例，市場幾乎成熟，你可以在幾個月內推出新的cursor。現在，未來許多最有利可圖的人工智慧使用案例還沒有達到這種先進的發展階段—典型地，想想所有這些仍然主導大部分世界經濟的基於規則的系統... 具有跨領域專業知識和高度專注的小型專門團隊可能最有能力解決這個問題—最終可能在初步工作完成後成為潛在的收購對象。我們可能在使用者介面方面看到同樣的管道。一些優先夥伴獲得獨家API訪問封閉式專門模型，前提是他們走上業務收購的道路。

我到目前為止還沒有提到DeepSeek，也沒有提到中國的實驗室。很簡單，因為DeepSeek已經更進一步：不是將模型作為產品，而是作為通用基礎設施層。

與OpenAI和Anthropic一樣，Liang Wenfeng公開了他的計劃：

我們相信，當前階段是技術創新的爆發，而不是應用的爆發。如果形成了完整的上下游產業生態系統，那麼我們就沒有必要自己製作應用。當然，如果需要，我們製作應用也沒有障礙，但研究和技術創新將永遠是我們的首要任務。

在這個階段，只專注於應用就像「用上一場戰爭的將軍打下一場戰爭」。恐怕我們已經到了西方許多人甚至不知道上一場戰爭已經結束的地步。