12/24 聖誕夜,NVIDIA (NVDA US) 與美國 AI 晶片新創公司 Groq 共同宣布達成協議,NVDA 支付 $200 億美元的高價,取得 Groq 的非獨家 (non-exclusive) 推論技術授權,同時,Groq 的執行長 Jonathan Ross 及其下研發團隊也將一同加入 NVDA,繼續發展精進 Groq 所擁有的推論技術。
這是一筆當今矽谷盛行的「收購招聘」(Acqui-hire) 手段。科技巨頭為了避免直接收購因反壟斷因素遭到否決,透過支付一定價金,取得該團隊最具價值的管理階層及技術人才,補足自身在研發團隊及技術上的缺口。被併購的公司雖然還存在,但已經進入名存實亡的狀態,只剩下部分維持基本營運的團隊跟不重要的業務。
然而,這筆交易最令人驚訝的地方在於,Groq 這家公司在三個月前的一輪募資中,估值僅 69 億美元。但 NVDA 卻願意用 200 億美元,接近 200% 的溢價收購這家公司,這背後到底有什麼盤算?
Groq 是一家什麼樣的公司?
Groq 成立於 2016 年的矽谷,創辦人 Jonathan Ross 過去是 Google TPU 的核心開發成員之一,可以說他對 AI 晶片運算有非常深厚的技術背景。
Groq 的招牌技術 LPU (Language Processing Unit),採用了與 NVDA 的 GPU 完全不同的架構及設計理念。Jonathan Ross 在多次談話中表達了一個清晰的觀點:NVIDIA 的架構是為了「訓練(Training)」贏的,但在「推論(Inference)」上是沒效率的。
- HBM vs. SRAM
- NVDA 的運算高度依賴 HBM 的儲存空間,由於 LLM 模型本身的參數量龐大,需要先把 LLM 模型存在 HBM 裡面,再透過高速傳輸將資料傳到 GPU,由 GPU 運算後再丟回 HBM 儲存,資料必須在兩者之間來回搬運,也因此受到傳輸速度的限制。
- Groq 則採用 on-chip SRAM 的架構,SRAM 是一種容量小但傳輸速度比 HBM (DRAM) 更快的記憶體。這個架構在 inference 端具有極低延遲的重大優勢。
- 硬體調度 vs. 軟體調度
- GPU 內部的硬體架構具有極其複雜的調度器 (Scheduler)、快取 (Cache),當指令進入 GPU 時,這些調度器會動態決定「誰先做、誰後做」。這些元件佔據了大量晶片面積,卻不直接參與運算,而且動態調整的過程同時也造成運算速度的「不確定性」。
- Groq 則採取由軟體編譯器 (Compiler) 調度的架構, 移除了所有硬體調度器和快取,將排程複雜度交給編譯器處理。由於編譯器能精確控制指令分發,硬體只需要知道在哪個時間自己該進行什麼樣的運算,實現了極高的運算密度,運算速度也能更精準地達到「確定性」。
簡單來說,Groq 的設計就是為了大幅降低 inference 的延遲性而生的。
如果 Groq 聽起來這麼厲害,為什麼還沒威脅到 NVDA?
Groq 的技術架構聽起來相當美好、強大,但一講到現實層面,為什麼沒有聽過檯面上的大型 AI 業者試圖導入 Groq 呢?
關鍵同樣在於 Groq 的技術架構存在本質上的缺陷:
- SRAM 的容量太小:如前面所說的,LLM 模型的參數權重太大,一顆 NVDA GPU 可以裝得下的模型,可能需要幾十顆甚至幾百顆 Groq 的晶片互聯在一起才能運算。當 LLM 的模型大到一定的程度,Groq 的晶片數量將成為最大的限制。
- SRAM 很貴:SRAM 的電晶體成本遠高於 DRAM/HBM。用 SRAM 來存儲幾百 GB 的模型權重,在經濟上極其奢侈。
Groq 的 LPU 雖然在處理單一請求的速度比 GPU 來得快,但 GPU 更善於處理大量批次的請求。雖然每個人的回答慢一點,但平均下來每顆晶片服務的人數多,經濟效益好。Groq 為了極致速度,往往犧牲了同時服務大量用戶的彈性。這也是為什麼我們幾乎沒有聽到任何大型 AI 資料中心採用 Groq 的原因。
所以,NVDA 為什麼要收購 Groq 團隊?
上述這些資料都是已知的事實,更重要的問題是:NVDA 為什麼要收購 Groq 團隊?
關於這一點,以下是筆者個人基於產業趨勢的一些猜測 (非事實):
1.Edge AI 的發展
Groq 的晶片採用 SRAM 架構,推論速度快、延遲低,但較難以一次處理大量的問題,這樣的特性使其較難在資料中心被使用,但是相當適合自駕車、人形機器人等終端應用,因為這些應用通常需要做出非常即時性的反應,例如:自駕車對路況的判斷、機器人對人類口說指令的解讀等。
NVDA 目前確實有針對這些應用推出專門的 Thor 系列晶片,但本質上還是屬於 GPU 架構,缺乏 Groq 晶片架構的優勢。同時,Groq 的架構在能效比 (Performance per Watt) 上對於 Edge AI 有巨大潛力,因為它省去了 HBM 搬運數據的巨大功耗,這對於電力受限的機器人或車載系統至關重要。
2.作為資料中心 GPU 的輔助架構
NVDA 的資料中心 GPU 速度很大一部分取決於 GPU 跟 HBM 之間的傳輸速度,這一點 NVDA 也已經在嘗試各種方式突破技術上限。
如果 NVDA 可以將 Groq 的 SRAM 架構整合到自家的 GPU,將少部分關鍵的模型參數儲存在 SRAM,採用 Groq 的方式快速回答初步的問題。比較進階的問題再交給儲存在 HBM 內的模型參數回答,達到混合架構的優點。(當然,這樣做的缺點在於造價必定更為昂貴,以及散熱的問題可能難以解決)
事實上 NVDA 目前在開發的 Rubin CPX,雖然本質上跟 Groq 的方式不同,但也是在嘗試將困難的推論工作拆解成兩個步驟,由主晶片 Vera Rubin + 輔助晶片 CPX 共同處理,進而加快推論的速度。
我們有可能看到 NVDA 不將 SRAM 直接整合在 GPU 內,而是將 LPU 放在旁邊作為輔助晶片的角色。有點類似一台跑車是否要再掛上一個容量小、但速度快的 turbo 引擎,可以交給客戶自由搭配。
3.軟體編譯器 (Compiler) 概念的採用
如果 NVDA 實際上對於 Groq 的 SRAM 架構並不感興趣,或是技術上仍有相當大的瓶頸無法實際採用,他們還是可以學習採用 Groq 的軟體 Compiler 概念。
NVDA 現在最知名的軟體編譯器 CUDA,主要負責的工作是把 AI 軟體工程師熟悉的 Python 等程式語言,轉換成 GPU 能讀懂的機器語言。但實際上在 GPU 內部如何運算,還是需要由 GPU 內部的硬體控制器排程,而且如我們前面所說的在推論過程中具有動態調整的「不確定性」。
相對的,Groq 的軟體編譯器是透過軟體,直接寫好晶片運算排程的指令。這樣的作法對一般的 AI 開發者其實並沒有比較方便,但可以降低推論延遲的不確定性。
NVDA 既有的 CUDA 架構依然是 AI 開發者相當好用的工具,但對於推論速度等於變現速度的資料中心業者,透過 Compiler 更進一步掌握對硬體內部推論流程的最佳化可能是一個強大的需求。
4.單純的防禦性併購
最後一種可能,NVDA 完全沒有想要 Groq 的 SRAM 架構,也沒有想要採用他們的軟體 Compiler 概念。單純只是 NVDA 畏懼 Groq 技術可能被 Google、Amazon 等資料中心業者透過併購取得,強化這些公司開發自身 ASIC 的能力 (尤其是在推論)。
投資市場可能不會特別喜歡這樣的情境,因為這代表 NVDA 的核心 GPU 技術確實不是沒有弱點,而且他們花了 200 億美元也沒有要改進這些弱點,只是想拖慢競爭對手追近的速度。對於一家科技公司而言,這不是一件好事。
不要忘記黃仁勳的長遠眼光
當然,個人是不太相信 NVDA 會走向前面說的第四個情境。
為什麼?一個聽起來很像迷信但簡單的理由,因為 NVDA 的執行長是黃仁勳。
NVDA 在 2019 年以 69 億美金收購以色列網路通訊晶片公司 Mellanox,這是目前為止改變這家公司最為關鍵的一次併購。這個併購金額雖然小於這次併購 Groq 的 200 億美金,但不要忘記 NVDA 當時大概還只是一間市值 1000 多億美金的公司,而現在已經是一間 4 兆美金的公司。
當時華爾街上有很多人對此併購表示質疑,認為 NVDA 應該專心做好 AI GPU 就好,網通領域在當時並不被看重,而且該市場已經被 Broadcom 等大型業者掌握,一家以色列的小公司很難被理解有什麼發展空間。
然而,NVDA 看上的是 Mellanox 內部的 Infinband 技術,可以完整他們當時正在發展的 NVLink 技術,也就是我們現在所看到的 scale up、scale out 架構。這也是 NVDA 在當今 AI 晶片領域最強大的護城河之一。
從這個例子來看,Jensen 對於 AI 領域未來的發展,以及公司該如何布局,確實具有很長遠的眼光。更不要忘記,NVDA 現在的客戶包含了全世界所有追求 AI 產業發展更快的龍頭公司,這些客戶對於 NVDA 現有技術架構的不足,以及他們希望 NVDA 可以補足的方向,也有可能是促進這筆交易發生的背後原因。
現在的時間是 2025 年底,讓我們看看 2026 年三月的 GTC 大會,Jensen 是否會帶著 Jonathan Ross 一同登台,揭曉我們上面的猜測是否合理!




















