付費限定

the Rubin, the LPU, the future.(含D/SRAM基礎觀念解析) #57P

更新 發佈閱讀 13 分鐘
投資理財內容聲明

2025的GTC(註一),黃仁勳首度發表了Rubin。

乍聽之下會覺得這是什麼?魯賓遜?魯冰花?

都不是

其乃NVIDIA 繼 Blackwell 之後的下一代架構代號,以天文學家Vera Rubin命名。



想要第一時間獲得市場上的最新資訊及分析嗎?
歡迎點擊下方連結訂閱【馬克觀點MKP】電子報,在即時更新資訊的同時,獲得最深入的分析~

https://docs.google.com/forms/d/e/1FAIpQLSdc94oYD9fsJd9hSqR47ma1Hi6AktsowMoB_h-uTPqbwsFLdQ/viewform



輝達黃仁勳自己是這麼說的:

"Rubin. This is our third generation NVLink 72 rack scale computer. Third generation. GB 200 was the first one. All of our partners around the world, I know how hard you guys worked. It was insanely hard. It was insanely hard to do. Second generation, so much smoother. And this generation, look at this, completely cableless. Completely cableless."

「Rubin。這是我們的第三代 NVLink 72 機櫃級電腦。第三代。GB200 是第一代。全球所有的合作夥伴們,我知道你們付出了多少努力。那真的非常艱難,當時要做成那樣簡直是困難重重。到了第二代,過程就順暢多了。而這一代,看看這個,完全無電纜化(completely cableless)。完全不需要任何電纜。」


此外,最近很火的就是關於LPU(Language Processing Unit)的議題,事實上,NVDA還真很有可能將Groq的LPU整合到2026年Vera Rubin晶片中,這某種程度上可以對沖高頻寬記憶體(HBM)短缺,並加強Nvidia的人工智慧生態系統護城河。

GPU使用的記憶體是GDDR(內含DRAM。與SRAM的差異詳見註二),通過印刷電路板(也就是我們常聽到的PCB)連結,而LPU設計的一個特點是,其直接將SRAM整合到運算晶片上,這點其實與過去的CPU一樣,好處皆為將記憶體直接整合在計算核心的同一顆晶片上,消除了board level(PCB板級)跨晶片傳輸的延遲;而與CPU不同處在於,雖然都用 SRAM,但LPU將其視為「主記憶體」,而過去CPU僅將其視為「緩衝區(即快取記憶體)」。

而因傳統GPU依賴外部記憶體,資料搬運的速度(頻寬)遠低於其運算速度;LPU的設計理念是:

既然搬運太慢,那就乾脆把所有資料都放在運算單元旁邊。


Groq LPU的內部SRAM頻寬高達80 TB/s,而當前頂級GPU的HBM3e(第三代enhance版本)頻寬約為 3.5~5 TB/s。前者整整高出一個無法相比的量級。

並且過去CPU存取快取若失敗(Cache Miss),則必須回到慢速的DRAM中找資料,但LPU 因為模型權重全都在SRAM裡(像前面說的LPU將其視為主記憶體之地位),永遠不會發生「找不到資料」的情況。

不過這樣的做法,唯一的缺點就是「貴」,傳統上來說,在單位容量成本上,DRAM是顯著比SRAM要便宜的,但若SRAM跟HBM對比,答案呢?

既貴又不貴

怎麼說?Mark精神錯亂了?怎麼有這種似是而非的奇怪答案?

那就要看我們從哪個角度去分析

 

首先,HBM架構裡採用的Memory種類亦為DRAM,而只要是DRAM,物理成本就一定比SRAM便宜(原因同註二);雖然HBM的原理為將DRAM做3D堆疊,故成本比一般家用電腦DRAM 貴5倍以上,不過每GB成本依然遠低於SRAM。 

但如果換了個角度,討論AI運算領域裡「每token(註三)產出的成本」,情況就不一樣了,SRAM之所以能讓LPU在商業上顯得「便宜」,是因為它改變了計算的經濟模型:

  1. 在能源成本上,對於資料中心運營商而言,電費是長期利潤的殺手;而LPU的SRAM因為是直接比照過往的CPU與運算晶片整合在一起,故不需額外的外部接口元件(俗稱匯流排),每產生一個Token消耗的能量極低。
  2. 則是吞吐量 (Throughput),這也是最重要的一點;雖然單顆LPU晶片因為採用SRAM而導致很貴、容量小(僅約230MB,隨便一部家用電腦都贏它),但它搬運資料的速度極快。如果一顆LPU的產出速度是GPU的5倍,那麼在達到相同效能時,所需的硬體維運成本與基礎設施負擔會減輕,簡單來說就是用速度彌補劣勢。

 綜合以上的兩個角度,由於SRAM容量太小,要運行一個語言模型,所需LPU數量可能是GPU的50~100倍,這導致LPU的初始採購成本在處理大型模型時實際上是更高的;但優勢在於後續,LPU不但能繞過HBM供應鏈的產能限制與漲價風險,且在「能效比」和「即時推論速度」上具有更強的利潤潛力。


LPU 並非發明了新技術,而是將SRAM的用途從「輔助緩衝」提拔到了「核心存儲」。

這種設計以容量換取速度,雖然單顆晶片能存的模型很小(230MB vs GPU的80GB HBM),但對於需要「即時生成」的AI推論場景,這種犧牲容量、不計初始建置成本、追求極限速度的作法展現了極大的優勢,能源效率也更高(有望減少後期成本)。

輝達將LPU技術收編後,對於程式開發者來說,以後就可以直接在CUDA環境下調動這種「極速推論」能力,這對於鞏固CUDA生態系、維持市場佔有率極為重要。



更值得注意的是,NVIDIA 並非用 SRAM「取代」HBM,而是將其未來產品線分層化。

簡單來說:

預計使用第四代HBM的Rubin標準版,角色仍然是大規模訓練與通用計算。

而Rubin推論版,採用搭載on-chip SRAM的LPU Logic晶片,再加上GDDR7(第七代的GPU專用DRAM記憶體)複合式架構,專攻極致低延遲推論(inference)需求,甚至改良後很可能可進一步用到實體AI邊緣運算上(這也是AI發展浪潮的下一個賣點);由於SRAM的存取延遲幾乎為零,能在推論階段實現幾乎瞬間的反應,這正是實體物理AI最需要的特性。

 

而以前大家可能有聽過NPU的故事(這個隨便google一下即很多,此不贅述,但換湯不換藥,NPU的高效能同樣建立在「減少資料搬運」的基礎上,除了資料在處理單元之間直接傳遞的設計,其餘講破沒價值,就是一樣採用on-chip SRAM啦);目前輝達的Rubin新產品開發策略,在融合LPU設計後,本質上就是一顆超級NPU!

透過預計在2026年發佈的Vera Rubin中整合LPU技術,NVIDIA正試圖打造一個既能吃下海量數據訓練(靠HBM4),又能實現即時推論運算(靠LPU/SRAM)的全能AI硬體供應商。



人工智慧革命才剛開始—只需回顧過去三年從基礎的文本Gen(生成式)AI模型到複雜的多模態模型(詳18期)、再到具身AI(詳48期)的發展歷程,不難發現人類正邁向自網路革命以來的下一波浪潮,這將改變全球經濟的運作方式(但技術繼續展不代表股市就只漲不跌)。NVDA的解決方案在相關領域都實屬重要;不管是自動駕駛、自動化工廠等等。前述舉例這些廣義上講,就是未來即將進一步發展的實體人工智慧。

最近一次GTC輝達提出的示意圖,可以看到AI應用的三大實體領域確實為"機器人"、"自駕車"、"智慧工廠(含數位孿生,詳情可複習MKP第16期)"

最近一次GTC輝達提出的示意圖,可以看到AI應用的三大實體領域確實為"機器人"、"自駕車"、"智慧工廠(含數位孿生,詳情可複習MKP第16期)"

 

Vera Rubin,2026年即將問世的次世代晶片,是輝達能否持續領先AMD的關鍵指標,業界對Vera Rubin的關注遠超想

像,因為這將決定輝達領先一兩年還是更久!資料中心則仍是整體商業模式的核心動力,市場報告預期超大規模雲端業者與其它AI業者將持續大量採購。



第16期電子報傳送門
第18期電子報傳送門
第48期電子報傳送門
〖註一〗
GTC(GPU Technology Conference),是輝達舉辦的大型技術論壇,聚焦於人工智慧技術的最新發展。就有點像以前特斯拉會自辦AI day一樣,算大型科技公司的技術展示會。 
〖註二〗SRAM為何先天就比DRAM貴?
因為設計架構問題;秉持MKP一貫之科普精神,這裡先不帶任何電子學的複雜內容,我就單純給大家看圖。(我保證沒有一篇講美股的文章會放這個,但理解這些一般散戶不願意理解的,正是"你變得跟別人不一樣"的開始!而就是這些不一樣,長遠會在決策上造成影響,差距就是這樣一點一滴拉開的)

SRAM/DRAM,兩者的基礎原理差不多,都是將電荷儲存至內部,藉由改變不同的電荷儲存 0 或是 1(二進制資料,整個數位世界的基礎)
SRAM(Static Random Access Memory,靜態隨機存取記憶體)單一位元儲存區的構造

SRAM(Static Random Access Memory,靜態隨機存取記憶體)單一位元儲存區的構造

DRAM(Dynamic Random Access Memory,動態隨機存取記憶體)單一位元儲存區的構造

DRAM(Dynamic Random Access Memory,動態隨機存取記憶體)單一位元儲存區的構造

眼見為憑,大家憑直覺,覺得哪一個比較複雜?這就對了!複雜度反映在成本上,故從物理成本來看,DRAM 結構永遠比 SRAM 便宜得多;而也因為DRAM結構簡單,即便在不斷電的情況下,儲存的電荷也會隨著時間漸漸消失,因此需要靠不斷刷新(Refresh)電量才能維持數據,故得名「D」(跟航海王的D不一樣嘿,這裡是指Dynamic,動態)

再補充一個額外知識,如果說一塊記憶體晶片上面積有限,大家覺得哪一種架構"能塞得更多(能儲存更多數據)"? 這就對了!SRAM的結構較複雜、單一晶片的容量較少,但換來的是存取速度快, DRAM則是構造簡單、存取時間較SRAM慢,但就勝在單位面積內的容量多很多。
〖註三〗Token?代幣?能拿去湯姆熊用嗎?
在人工智慧或大型語言模型(LLM)的情境下,你可以將Token想像成機器閱讀文字時的「最小語言單位」,人類閱讀時是看「字」或「詞」,但電腦並不真正理解文字。為了處理資訊,電腦會把一段話拆解成一塊塊的零件,這些"零件"就是Token。



【有關科技業的一些投資hint(會員專屬)】

以行動支持創作者!付費即可解鎖
本篇內容共 4900 字、0 則留言,僅發佈於馬克觀點MKP你目前無法檢視以下內容,可能因為尚未登入,或沒有該房間的查看權限。
留言
avatar-img
馬克觀點Mark’s point——超越財報、深入質化基本面
19會員
73內容數
用專業、通俗的方式,講解大眾與分析師常忽略的質化「硬底子知識」,以幫助判斷企業的真正競爭力。 我們著重於「觀點深入」、「拆解核心」、「科普但專業」,致力於幫助大家瞭解"你到底買了甚麼" 同時也不定期發送重要的投資資訊、產業趨勢、科技方向,以及價值投資觀念解析。
2026/01/09
本文簡單分析AI時代下的外部產業近況,包含最近水漲船高的記憶體產業,其實仍然脫離不了極強的週期性,也可以從AI巨頭應對記憶體漲價的作為中,看出記憶體並不像劃時代的AI技術一樣不可或缺,反而只是吃到AI紅利的產業。
Thumbnail
2026/01/09
本文簡單分析AI時代下的外部產業近況,包含最近水漲船高的記憶體產業,其實仍然脫離不了極強的週期性,也可以從AI巨頭應對記憶體漲價的作為中,看出記憶體並不像劃時代的AI技術一樣不可或缺,反而只是吃到AI紅利的產業。
Thumbnail
2026/01/08
本文深入探討Chiplet(小晶片)技術,解析其如何克服傳統單片式晶片設計的瓶頸,並在AI、資料中心等領域展現巨大潛力。透過模組化設計、先進封裝與異質整合,Chiplet不僅能提升效能、降低成本,更能加速產品開發週期,成為半導體產業未來發展的關鍵趨勢。
Thumbnail
2026/01/08
本文深入探討Chiplet(小晶片)技術,解析其如何克服傳統單片式晶片設計的瓶頸,並在AI、資料中心等領域展現巨大潛力。透過模組化設計、先進封裝與異質整合,Chiplet不僅能提升效能、降低成本,更能加速產品開發週期,成為半導體產業未來發展的關鍵趨勢。
Thumbnail
2026/01/08
創投能成功的重點,不在於精準選股或精準擇時,而是透過廣泛投資眾多新創公司尋找潛在的萬倍報酬,善用長尾效應獲得巨大報酬其實散戶也能夠實現,但你得具備耐心。
Thumbnail
2026/01/08
創投能成功的重點,不在於精準選股或精準擇時,而是透過廣泛投資眾多新創公司尋找潛在的萬倍報酬,善用長尾效應獲得巨大報酬其實散戶也能夠實現,但你得具備耐心。
Thumbnail
看更多