人工智能推論如何解鎖新一代軟體即服務

How AI Inference Can Unlock The Next Generation Of SaaS

這是一篇由Roman 寫的文章，Roman是Nebius的CBO也是Co-Founder，由他來寫這篇文章我覺得不錯，最近市場在吵的話題剛好就是推論，無論是TPU,Groq,NPU等等，都是在想怎麼把推論做得更好，另一個話題則是在炒SaaS是不是要死亡了，我覺得兩邊都沒問題，但不覺得SaaS會死亡，反而是要看這些SaaS公司怎麼整合AI讓使用者更方便．

關於最近的市場我也在思考

是不是小模型會更適合一般場景應用?最近很紅的Skills就是一個應用，我也預期Edge AI在今年開始會蓬勃發展
推論要怎麼讓SaaS也整合進去，是否有更多的Use case會發生
做LLM的也想做SaaS或是Application，原本對接LLM的廠商是否會陣亡?
MAG7這幾間大公司要怎麼把市場吃下來還是讓小公司反噬?

關於一些我的想法

AMZN今年應該可以開始有好成績，靠著內部的小模型Nova可以慢慢吃掉一部分的市場，因為這些企業根本不需要這麼大的LLM，對比Gemini Flash就是一個好例子，聽財報狗的Podcast說換了Flash價格便宜超過一半，所以我認為這些小模型會越來越多人使用．
Cursor會陸續沒落，原因就是Claude太強了，Claude Code/Skill/Cowork等等已經不是Cursor可以取代的功能，而且說實話Cursor就是一個包裝起來的IDE，對標Amazon的Kiro也很強．
一些SaaS要怎麼生存?我最近在看WIX感覺很不錯，可以吃到蠻多的市場，雖然是個後起之秀，但主要原因是吃下了Base44的用戶，這隻是個很好的觀察標的．

文章鏈結如下

https://www.forbes.com/councils/forbestechcouncil/2026/01/20/how-ai-inference-can-unlock-the-next-generation-of-saas/

AI 的每一項重大進展都始於模型訓練，但商業影響力只有在訓練完成後才會開始。訓練驅動創新，而推論決定了該創新能被部署得有多廣泛和高效。推論是產品交付、用戶服務和經濟價值創造的地方。這是模型停止學習、開始獲利的地方。

在過去一年中，像 GPT-5、Llama 4 和 DeepSeek V3 這樣的基礎模型已達到新的能力門檻，使得以前不可行的產品類別成為現實。它們的進展加速了 AI 原生公司的發展，幫助驗證哪些應用在實踐中能帶來真正的價值。因此，企業開始在工作流程、數據系統和運營中大規模推展 AI，而不是將努力限制在孤立的實驗中。

組織應考慮優先採用已經顯示出可衡量回報的使用案例，例如程式碼助手、客戶支援自動化和 CRM 充實，而不是推出互不相連的概念驗證。從已經理解其影響的工作負載開始，允許團隊基於已確立的模式進行構建，並更有信心地進行擴展。

就像 SaaS 將軟體從一次性授權轉變為經常性服務一樣，AI 正在重塑現代 SaaS 產品的概念和構建方式。隨著工作負載從實驗階段過渡到生產階段，推理的經濟性越來越多地決定了什麼是實際可行的。這正是有意義的差異化和長期價值出現的地方。

訓練 AI 模型可能需要花費數百萬美元的運算成本，但這是一次性開支。推理則是隨著每位使用者、每次查詢、每個應用程式而擴展的可變成本。這是單位經濟效益成敗的關鍵所在。

封閉生態系統可以幫助簡化早期實驗和產品驗證。但在規模擴大時，組織通常需要更大的靈活性、控制力和成本效率，因此許多企業開始探索開源模型和專用推理架構。

許多人仍然低估了針對特定使用案例優化模型能帶來的效能和效率提升。生產環境中的 AI 往往不需要最先進的模型，而是需要合適的模型。一個規模較小、經過微調和精心優化的模型可以在特定工作流程上超越前沿模型，且成本僅為其一小部分——這正是開放權重模型能夠提供的優勢。

與大規模部署開源模型的團隊合作時，我們透過最佳化管線、調整模型和選擇符合其工作負載的部署架構，看到了顯著的成本降低。

可以將推論視為雲端堆疊中的一個新抽象層：以使用量計費、可擴展且與客戶成果密切相關。隨著使用量增長，效率提高、成本下降，整個生態系統也受益。但推論經濟學並非孤立存在。它們完全由底層基礎設施模式所塑造。

推論並非一體適用；它因延遲、品質和成本要求的不同而差異很大。例如，處理法律文件可以容許每個任務耗時數分鐘甚至數小時，而即時遊戲或客戶支援代理則需要毫秒以下的響應速度。

互動式應用程式，例如詐欺偵測或推薦引擎，通常在自動擴展 GPU 叢集上運行，其效率來自於使用批次處理和快取等技術來優化每美元吞吐量。相比之下，批次工作負載，例如法律文件分析，可以利用競價實例或較舊硬體來最大化成本效率。

相同的技術，截然不同的經濟效益：就像熱、暖和冷儲存層一樣，但這次是用於運算。

某些使用案例需要混合處理方法。例如，客戶支援應用程式可能需要次秒級聊天機器人回應、耗時數分鐘到數小時的批次情感分析，以及反應時間為 1 到 10 秒的代理協助工作流程—這是單一產品內的三個不同優化目標。

這種複雜性在整個基礎設施堆疊中創造了效率機會。目標是減少開銷，讓客戶只需為實際提供流量的確切分鐘數或秒數付費。單單這一轉變就能大幅改善推論的經濟效益。

採用可減少供應商碎片化並將工作負載與一致服務級別協議保證相結合的架構，可以進一步提升效能和成本效率。

大規模推理涉及的遠不止於在 GPU 上生成代幣。現代推理堆疊跨越三個相互連接的層級：

1. 代幣生成：這是原始運算發生的基礎層，包括核心最佳化、推理庫和次世代硬體。

2. 協調：這是分散式基礎設施層，整合完整堆疊以創造實際價值，涵蓋鍵值快取、工作負載平衡和運算資源自動擴展。

開發者體驗：這些是支援企業級實驗和部署的工具和流程，包括可觀測性、評估、真實世界的整合和可靠性保證。

下一代推論平台必須發展以因應所有三個層面。目標不僅是要有效地提供模型服務，還要提供穩健的開發者工作流程、生命週期管理，以及驅動 SaaS 成功的營運精緻度。

全棧基礎設施至關重要，因為推理效能取決於所有元件的互動，而不僅是其中一個。協調整個端對端堆疊可以降低延遲、提高可靠性，並相比分散的雲端設置，提升以每美元代幣數衡量的效率。

能夠在組織的運算資源中管理多樣化工作負載，並充分利用最新硬體進展的平台，能夠持續改進效能和成本效率。

訓練創造了模型，但推論才是真正運行、擴展並最終產生價值的方式。這就是為什麼推論正推動新一代的 SaaS——它是將 AI 從研究突破轉化為可持續業務的階段。

下一個挑戰在於開發推論之上的層級：整合微調、強化學習即服務，以及將使用轉化為競爭優勢的數據系統。

我們不只是在觀看新的市場類別出現。我們正目睹軟體建構方式的重新佈線。