大語言模型產品化

更新於 發佈於 閱讀時間約 9 分鐘

過去幾年間,有許多關於人工智慧發展下一個週期可能是什麼的推測。是代理人(Agents)?推理器(Reasoners)?真正的多模態(Multimodality)?


我認為現在是時候明確指出:模型即產品。


當前研究和市場發展中的所有因素都朝這個方向推進。

在GPT-4.5發布背後,我觀察到通用型模型的發展稍微停滯,因為模型能力正在線性增長,而計算成本卻呈現幾何曲線。即使過去兩年在訓練和基礎架構上取得了有效率的提升,OpenAI仍無法以長期可負擔的價格部署這個巨大的模型。

有目的的訓練效果比預期好得多。強化學習和推理的結合意味著模型可以開始學習特定任務。這不是機器學習,也不是通用型模型,而是一種新的妥協。它甚至是小型模型突然在數學上變得非常出色。它是編碼模型不再僅僅生成程式碼,而是自己管理整個程式碼儲存庫。它是Claude在上下文資訊非常有限且沒有專門訓練的情況下玩寶可夢。

推論成本正在自由下降。最近來自DeepSeek的優化意味著,所有可用的GPU可以覆蓋整個地球人口每天來自前沿模型的10k個標記的需求。根本沒有這種水平的需求。銷售標記的經濟對模型提供者而言不再有效:他們必須在價值鏈中向上移動。這也是一個令人不安的方向。所有投資者都在押注應用層。在人工智慧演化的下一階段,應用層很可能是第一個被自動化和顛覆的。


即將到來的模型形態


過去幾週,我們看到了這新一代模型作為產品的兩個典型例子:OpenAI的DeepResearch和Claude Sonnet 3.7。

我讀到了許多關於DeepResearch的誤解,這不僅僅是因為開放和封閉克隆的增加。OpenAI並沒有在O3之上構建一個包裝器。他們訓練了一個全新的模型,能夠內部執行搜尋,無需任何外部呼叫、提示或協調:

「模型學習了核心瀏覽能力(搜尋、點擊、滾動、解釋檔案等等)以及如何推理合成大量網站以找到特定資訊片段或通過對這些瀏覽任務的強化學習訓練撰寫全面報告。」

DeepResearch不是標準的LLM,也不是標準的聊天機器人。它是一種新形式的研究語言模型,專門設計用於執行端到端的搜尋任務。對於每個認真使用它的人來說,差異立即顯而易見:模型生成具有一致結構和底層源分析過程的冗長報告。相比之下,正如Hanchung Lee所強調的,所有其他DeepSearch,包括Perplexity和Google變體,只是你常見的模型加上一些調整:

「Google的Gemini和Perplexity的聊天助手也提供『深度研究』功能,但兩者都沒有發布關於他們如何為任務優化模型或系統的任何文獻,也沒有進行實質性的定量評估,所以我們假設所做的微調工作並不重要。」

Anthropic已經更清晰地闡明了他們當前的願景。在12月,他們引入了一個有爭議但在我看來是正確的代理模型定義。與DeepSearch類似,代理必須在內部執行目標任務:它們「動態指導自己的流程和工具使用,控制如何完成任務」。

大多數代理初創公司目前構建的不是代理,而是工作流程,即「通過預定義的代碼路徑協調LLM和工具的系統」。工作流程可能仍然帶來一些價值,特別是對於垂直應用。然而,對於目前在大型實驗室工作的任何人來說,顯而易見的是,自主系統的所有重大進展都將通過首先重新設計模型來實現。

我通過發布Claude 3.7看到了這一點的具體示範,這是一個主要針對複雜程式碼進行訓練的模型。所有像Devin這樣的工作流程適應在SWE基準測試上都有了重大提升。所有這一切在實踐中意味著:置換複雜性。訓練預期各種行動和邊緣情況,使部署變得更加簡單。但在這個過程中,大部分價值現在由模型訓練者創造,並可能最終被捕獲。簡而言之,Claude旨在打破和取代當前的工作流程,就像這個來自llama index的基本「代理」系統一樣。

raw-image


訓練或是被訓練


再次強調:大型實驗室正在整合功能、向上進入應用層,並嘗試在那裡獲取最大價值。模型提供者和包裝者之間的蜜月期已經結束,服務開發可能有幾個發展方向:

  • 對Claude Code和DeepSearch來說。你會注意到DeepSearch不是通過API提供,而是用來為高級訂閱創造價值。Claude Code是一個極簡的終端整合。奇怪的是,雖然Claude 3.7在Claude Code中運作完美,但Cursor在使用它時遇到困難,我已經看到幾個用戶因此取消了訂閱。真正的人工智慧代理不關心預先存在的工作流程:它們取代了工作流程。
  • 最高知名度的包裝者現在正在爭先恐後地成為混合式人工智慧訓練公司。他們確實擁有一些訓練能力,雖然很少被宣傳。Cursor的主要資產之一是他們的小型自動完成模型。WindSurf有他們內部便宜的程式碼模型Codium。Perplexity一直依賴於自家分類器來進行路由,最近轉向訓練自己的DeepSeek變體用於搜尋目的。
  • 對於較小的包裝者來說,不會有太大變化,只是可能更加依賴不受特定影響的推論提供者,如果大型實驗室完全放棄這個市場。我也預期會看到更多的焦點放在使用者介面上,這仍然被嚴重低估,因為更多的通用模型可能會整合常見的部署任務,特別是針對RAG。


簡而言之,對於大多數成功的包裝者來說,困境很簡單:訓練或被訓練。他們現在所做的不僅是為大型實驗室提供免費的市場研究,更甚者,由於所有輸出最終都是通過模型提供者生成的,他們提供了免費的數據設計和生成。

之後會發生什麼很難被猜到。成功的包裝者確實有了解他們垂直領域的優勢,並積累了大量寶貴的用戶資料。然而,根據我的經驗,從模型到應用層比從頭開始建立全新的訓練能力要容易。包裝者可能也沒有得到投資者的幫助。據我所聽說的,對訓練存在如此大的負擔,他們幾乎必須隱藏將成為他們最關鍵價值的東西。


強化學習尚未被定價

這讓我談到實際痛苦的部分:目前所有人工智慧投資都是相關的。基金在以下假設下運作:

  • 真正的價值僅存在於獨立於模型層的應用層,這一層最有可能顛覆現有市場。
  • 模型提供者只會以不斷降低的價格銷售標記,使包裝者反過來更有利可圖。
  • 封閉模型包裝將滿足所有現有需求,即使在監管部門對外部依賴有長期擔憂的受監管行業。
  • 建立任何訓練能力只是浪費時間。這不僅包括預訓練,而且包括所有形式的訓練。


我擔心這越來越像是一個冒險的賭注和一個實際的市場失敗,無法準確定價最新的技術發展,特別是在強化學習方面。在當前的經濟生態系統中,風險基金旨在尋找不相關的投資。他們不會打敗標普500指數,但這不是大型機構投資者所尋找的:他們想要打包風險,確保在糟糕的年份至少有些事情會有好的發展。模型訓練就像一個教科書中完美的例子:在大多數西方經濟體正在走向衰退的情況下,有大量的潛力進行顛覆。然而,模型訓練者無法籌集資金,或至少不是以通常的方式。Prime Intellect是少數幾個新的西方人工智慧訓練公司之一,有明確的潛力成為前沿實驗室。然而,儘管他們的成就包括訓練第一個去中心化人工智慧大型語言模型,他們仍然很難籌集比普通包裝者更多的資金。

除此之外,除了大型實驗室,當前的訓練生態系統非常小。你可以在手上數清這些公司:Prime Intellect、HuggingFace預訓練團隊等等,連同一些更學術的參與者(Allen AI、Eleuther...),他們建立並支持大多數當前的開放訓練基礎設施。在歐洲,我知道至少有7-8個人工智慧大型語言模型項目將整合。

當前的募資環境有著深層次的問題。即使是OpenAI現在也感受到了。最近,對於目前矽谷創業公司環境中缺乏「垂直強化學習」有一些感受到的煩躁。

如果模型是產品,你不一定能夠獨自建立它,但搜尋和程式碼是容易做的:兩年來的主要使用案例,市場幾乎成熟,你可以在幾個月內推出新的cursor。現在,未來許多最有利可圖的人工智慧使用案例還沒有達到這種先進的發展階段—典型地,想想所有這些仍然主導大部分世界經濟的基於規則的系統... 具有跨領域專業知識和高度專注的小型專門團隊可能最有能力解決這個問題—最終可能在初步工作完成後成為潛在的收購對象。我們可能在使用者介面方面看到同樣的管道。一些優先夥伴獲得獨家API訪問封閉式專門模型,前提是他們走上業務收購的道路。

我到目前為止還沒有提到DeepSeek,也沒有提到中國的實驗室。很簡單,因為DeepSeek已經更進一步:不是將模型作為產品,而是作為通用基礎設施層。

與OpenAI和Anthropic一樣,Liang Wenfeng公開了他的計劃:

我們相信,當前階段是技術創新的爆發,而不是應用的爆發。如果形成了完整的上下游產業生態系統,那麼我們就沒有必要自己製作應用。當然,如果需要,我們製作應用也沒有障礙,但研究和技術創新將永遠是我們的首要任務。

在這個階段,只專注於應用就像「用上一場戰爭的將軍打下一場戰爭」。恐怕我們已經到了西方許多人甚至不知道上一場戰爭已經結束的地步。

avatar-img
1會員
36內容數
心繫正體中文的科學家,立志使用正體中文撰寫文章。 此沙龍預計涵蓋各項資訊科技知識分享與學習心得
留言
avatar-img
留言分享你的想法!

































































Kiki的沙龍 的其他內容
蘋果預計於本月推出其具備 Apple Intelligence 功能的平價版 iPhone,據報導,公司對這款裝置寄予厚望,期望能獲得高額回報。蘋果將對 SE 系列進行多項變更,包括更大的顯示螢幕以及類似高階機型的設計。然而,這款裝置也將配備升級的內部硬體,這將成為升級的亮點。
人工智慧領域正在迅速發展,而其中最令人興奮的應用之一是生成式應用。在這個應用領域中,DeepSeek R1 是一個尖端的語言模型,專門設計用於協助開發者撰寫、最佳化和理解程式碼。透過運用其他大型語言模型 (LLM)的力量,DeepSeek 公司發展了一個新版的語言模型。
未來的 6G 網路預計將促進生活、社會和產業各個層面的數位化和虛擬化,滿足人類和智慧機器的通訊需求。為了實現這一願景,資通訊產業首先需要就未來網路提供的使用案例和需求達成共識。在 2024 年 12 月於馬德里舉行的 3GPP RAN #106 會議上,3GPP 朝著這一共識邁出了重要一步,開始討論
一個所有Agent領域開發者都應該關注的開源專案。模型上下文協定(Model Context Protocol,MCP)將成為連接AI代理和助理與資料所在系統(包括內容儲存庫、商業工具和開發環境)的新標準。
檢索增強生成(Retrieval-Augmented Generation, RAG)是一種方法,可為您公司的私有資料提供客製化的 ChatGPT,使您更容易找到並使用所需的知識。它可以幫助您快速有效地與大量資訊互動。
蘋果預計於本月推出其具備 Apple Intelligence 功能的平價版 iPhone,據報導,公司對這款裝置寄予厚望,期望能獲得高額回報。蘋果將對 SE 系列進行多項變更,包括更大的顯示螢幕以及類似高階機型的設計。然而,這款裝置也將配備升級的內部硬體,這將成為升級的亮點。
人工智慧領域正在迅速發展,而其中最令人興奮的應用之一是生成式應用。在這個應用領域中,DeepSeek R1 是一個尖端的語言模型,專門設計用於協助開發者撰寫、最佳化和理解程式碼。透過運用其他大型語言模型 (LLM)的力量,DeepSeek 公司發展了一個新版的語言模型。
未來的 6G 網路預計將促進生活、社會和產業各個層面的數位化和虛擬化,滿足人類和智慧機器的通訊需求。為了實現這一願景,資通訊產業首先需要就未來網路提供的使用案例和需求達成共識。在 2024 年 12 月於馬德里舉行的 3GPP RAN #106 會議上,3GPP 朝著這一共識邁出了重要一步,開始討論
一個所有Agent領域開發者都應該關注的開源專案。模型上下文協定(Model Context Protocol,MCP)將成為連接AI代理和助理與資料所在系統(包括內容儲存庫、商業工具和開發環境)的新標準。
檢索增強生成(Retrieval-Augmented Generation, RAG)是一種方法,可為您公司的私有資料提供客製化的 ChatGPT,使您更容易找到並使用所需的知識。它可以幫助您快速有效地與大量資訊互動。
你可能也想看
Google News 追蹤
Thumbnail
川普2.0的關稅與貿易政策,表面看似反覆無常,實則圍繞著幾個核心目標:扭轉貿易不公、推動美國再工業化、確保戰略自主,以及貫徹「美國優先」原則。本文深入剖析其背後的一致性邏輯、長期戰略意義,以及對全球產業鏈的影響,並探討不同產業的贏家與輸家。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
在當今快速發展的技術時代,人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程,AI和ML的應用範圍日益廣泛,為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢?
Thumbnail
人工智慧系統正在慢慢影響我們的生活,並在不同的產業和產品中得到應用。目前使用的系統大多是基於狹義人工智慧。狹義人工智慧與通用人工智慧有很大不同。 狹義人工智慧的創建是為了專注於特定任務,一個例子就是聊天機器人。
在人工智能的發展歷程中,早期的研究主要側重於將解決問題的規則輸入計算機,試圖通過啟蒙運動理性的思路模擬人類的智能行為。然而,這條路逐漸變得艱難,因為規則過於繁多,無法應對複雜的情境和語境。在這個背景下,一些科學家轉向了神經網絡算法,試圖模擬人腦的感知能力。
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。
Thumbnail
人工智慧(AI)的未來展望 在當今這個科技日新月異的時代,人工智慧(AI)已成為推動創新和進步的重要力量。從自動駕駛汽車到精準醫療,AI的應用範圍不斷擴大,其潛力無限。然而,隨著AI技術的快速發展,我們也必須關注其對社會、經濟和倫理的影響。
Thumbnail
本文將探討人工智能對生活上的影響和改變,同時,例如規劃時間,安排選擇等等,附上一些建議與推薦工具。 在今天,大語言模型開通全球,我們可以輕易的使用人工智能對話,和他們對話,交流,討論,但是,除了娛樂以外,在生活上,我們還有什麼用法呢?
Thumbnail
2023年底以來,語言模型發展面臨著價格上漲、更新減緩和公司內部變動的局面,這些變化似乎意味著語言模型的發展受到了人為的控制和限制。
Thumbnail
川普2.0的關稅與貿易政策,表面看似反覆無常,實則圍繞著幾個核心目標:扭轉貿易不公、推動美國再工業化、確保戰略自主,以及貫徹「美國優先」原則。本文深入剖析其背後的一致性邏輯、長期戰略意義,以及對全球產業鏈的影響,並探討不同產業的贏家與輸家。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
在當今快速發展的技術時代,人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程,AI和ML的應用範圍日益廣泛,為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢?
Thumbnail
人工智慧系統正在慢慢影響我們的生活,並在不同的產業和產品中得到應用。目前使用的系統大多是基於狹義人工智慧。狹義人工智慧與通用人工智慧有很大不同。 狹義人工智慧的創建是為了專注於特定任務,一個例子就是聊天機器人。
在人工智能的發展歷程中,早期的研究主要側重於將解決問題的規則輸入計算機,試圖通過啟蒙運動理性的思路模擬人類的智能行為。然而,這條路逐漸變得艱難,因為規則過於繁多,無法應對複雜的情境和語境。在這個背景下,一些科學家轉向了神經網絡算法,試圖模擬人腦的感知能力。
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。
Thumbnail
人工智慧(AI)的未來展望 在當今這個科技日新月異的時代,人工智慧(AI)已成為推動創新和進步的重要力量。從自動駕駛汽車到精準醫療,AI的應用範圍不斷擴大,其潛力無限。然而,隨著AI技術的快速發展,我們也必須關注其對社會、經濟和倫理的影響。
Thumbnail
本文將探討人工智能對生活上的影響和改變,同時,例如規劃時間,安排選擇等等,附上一些建議與推薦工具。 在今天,大語言模型開通全球,我們可以輕易的使用人工智能對話,和他們對話,交流,討論,但是,除了娛樂以外,在生活上,我們還有什麼用法呢?
Thumbnail
2023年底以來,語言模型發展面臨著價格上漲、更新減緩和公司內部變動的局面,這些變化似乎意味著語言模型的發展受到了人為的控制和限制。