
當大型語言模型(LLM)從實驗室走向商業化部署,一個看似枯燥的技術細節正在重塑半導體產業的權力版圖:KV Cache。這個在 Transformer 模型推理過程中用來快取注意力計算結果的技術,正在成為決定 AI 晶片效能與成本的关键變數。近期 Wells Fargo 針對半導體與 IT 硬體產業的研究報告顯示,Google 的 TurboQuant 技術成功將 KV Cache 使用量降低 6 倍,Sandisk 與 Kioxia 投資南亞科的動向也揭示了記憶體產業的戰略重組正在加速。這些發展指向一個共同趨勢:AI 推論時代的記憶體戰爭已經開始。
一、為什麼 KV Cache 成為 AI 推論的瓶頸?
在討論 KV Cache 之前,我們需要理解大型語言模型是如何處理文字的。當你對 ChatGPT 提出一個問題,模型不會一次性把整個對話丟進神經網路計算,而是採用「自回歸」的方式逐一生成 token。這意味著,模型需要反覆計算每一個新增的文字 token 與之前所有 token 之間的注意力關係。
這就是 KV Cache 登場的地方。在 Transformer 的注意力機制中,每一層都會計算 Query、Key、Value 三個矩陣。當生成新 token 時,之前 token 的 Key 和 Value 實際上是不變的,可以「快取」起來重複使用。這就是 KV Cache 的核心邏輯:把已經計算過的 Key-Value 向量存起來,避免在每次生成新 token 時重新計算。
聽起來很高效,對吧?問題在於 KV Cache 會隨著序列長度和 batch size 線性增長。想像一下,如果模型的隱藏層維度是 4096,每一層有 32 個注意力頭,而你需要處理一個 8K token 的長文本。光是 KV Cache 就需要佔用相當可觀的 GPU 記憶體。而 GPU 記憶體恰恰是目前 AI 晶片最昂貴、最稀缺的資源。
這就是為什麼 NVIDIA H100 的 HBM3e 記憶體(141GB)會成為搶手貨,也是為什麼各家雲端廠商都在瘋狂自研 AI 晶片。Google 的 TurboQuant 技術能在這個戰場上實現 6 倍的 KV Cache 縮減,其戰略意義甚至超過單純的效能提升。這意味著在同樣的 GPU 記憶體容量下,可以處理更長的序列、服務更多的用戶、或部署更大的模型。
二、Google TurboQuant:記憶體效率的突破
Google 在 AI 基礎設施領域的動向一直是產業風向球。從 TPU(Tensor Processing Unit)的開發到 Kubernetes 的普及,Google 的技術路線往往代表了未來三到五年的產業主流。這次 TurboQuant 提出的「6x KV Cache 減少」技術,核心概念是透過量化(quantization)和壓縮技術,在保持模型準確度的前提下,大幅降低 KV Cache 對記憶體的佔用。
具體而言,傳統的 KV Cache 通常以 FP16(16 位元浮點數)格式儲存。而 TurboQuant 的創新之處在於,它能夠將這些快取動態量化為 INT4 甚至更低的位元精度,同時通過精巧的壓縮演算法避免精度損失。這不是單純的「壓縮」,而是需要考慮到注意力計算的數學特性,在壓縮和解壓縮之間設計出計算效率最優的方案。
從投資角度來看,這項技術的影響是多層次的。首先,它可能降低對高階 GPU 記憶體的需求彈性,如果 KV Cache 可以被高效壓縮,那麼企業可能不需要購買最昂貴的 H100/H200 也能部署大模型。其次,這也可能影響記憶體廠商的產品路線圖,未來的 HBM 可能需要更多針對壓縮資料的優化。最後,對於像 Google 這樣的雲端巨頭,記憶體效率的提升直接轉化為成本節約和利潤率改善。
值得強調的是,這類技術突破也意味著 AI 晶片的競爭正在從單純的「算力比拼」轉向「系統效率比拼」。NVIDIA 雖然在 GPU 算力上遙遙領先,但如果客戶能夠通過軟體優化大幅壓縮記憶體需求,那麼其他競爭者(如 AMD、Intel、Google TPU)可能獲得更大的市場空間。
三、Sandisk 與 Kioxia:NAND Flash 巨頭的 DRAM 佈局
在記憶體產業的版圖上,NAND Flash 與 DRAM 是兩個截然不同的戰場。NAND Flash 主要用於儲存(固態硬碟、手機儲存),具有非揮發性、成本低、密度高的特點;DRAM 則是用於運算時的暫存,速度快但成本高、容量小、揮發性。但在 AI 時代,這兩個戰場的邊界正在模糊。
Sandisk(原屬 Western Digital,2025 年完成分拆上市)與 Kioxia(原東芝記憶體)是全球 NAND Flash 市場的前兩大玩家,合計市佔率超過 30%。兩家公司近期傳出投資南亞科的動向,這是一個值得深入解讀的產業訊號。南亞科是台灣第三大 DRAM 廠商,在全球 DRAM 市場佔有約 3% 的份額,主要生產 DDR4 和 DDR5 記憶體。
為什麼 NAND Flash 巨頭要投資 DRAM 公司?答案可能藏在 AI 推論的記憶體需求變化中。傳統上,AI 訓練需要大量的 GPU 記憶體(HBM),而 AI 推論則可以使用相對較低的配置。但隨著模型規模擴大和長文本應用普及,推論階段的記憶體需求也在快速增長。更關鍵的是,一種稱為「CXL Attached Memory」的新架構正在興起——通過 CXL 互聯協議,伺服器可以將廉價的 DDR5 DRAM 作為 GPU 記憶體的延伸,用來存放 KV Cache 等非熱點資料。
這意味著,原本用於 GPU 的大容量 HBM 可能部分被「GPU HBM + CXL DDR5」的組合取代。南亞科作為 DDR5 DRAM 的生產商,在這波架構轉型中有機會獲得新的訂單。而 Sandisk 和 Kioxia 通過投資南亞科,不僅可以分享 DRAM 週期復甦的紅利,更重要的是,可以佈局 AI 記憶體供應鏈的戰略位置。
從產業格局來看,這筆投資也可能加速 NAND Flash 廠商向「記憶體解決方案供應商」轉型。未來的 AI 資料中心需要的不是單一類型的記憶體,而是 HBM(GPU 內部)、DDR5(系統記憶體)、NAND Flash(長期儲存)的協同方案。能夠同時掌握 NAND 和 DRAM 技術的公司,在客戶關係和產品整合上會有明顯優勢。
四、CPU 瓶頸:AI 晶片的另一道坎
在 GPU 供應短缺和 HBM 產能受限的討論中,另一個同樣重要的瓶頸常常被忽略:CPU。Wells Fargo 的報告特別提到「CPU Constraints」作為半導體產業的關注重點,這不是沒有原因的。
當我們談論 AI 晶片,腦海中浮現的往往是 NVIDIA H100、Google TPU、AMD MI300 這些「運算核心」。但在實際的 AI 伺服器架構中,CPU 扮演著不可或缺的角色:數據預處理、模型加載、推理請求調度、後處理邏輯,這些都需要 CPU 參與。更重要的是,CPU 與 GPU 之間的數據傳輸頻寬(通過 PCIe 或 NVLink)往往成為系統吞吐量的限制因素。
近期 Intel 和 AMD 在伺服器 CPU 市場的競爭,某種程度上也是在爭奪 AI 基礎設施的控制權。Intel 的 Xeon 伺服器處理器搭載的 AMX(Advanced Matrix Extensions)指令集,就是專門為 AI 推論優化的設計。AMD 的 EPYC 處理器則在核心數量和 PCIe 通道數上持續推進,以支援更多的 GPU 連接。
對於投資人來說,「CPU 瓶頸」這個議題提醒我們,AI 產業鏈的投資機會不只存在於 GPU 和記憶體。當 NVIDIA H100 一卡難求時,配套的 CPU、網路卡、散熱系統、電源供應器同樣面臨需求增長。這也是為什麼在 2025-2026 年間,我們看到伺服器 CPU 的平均售價(ASP)持續上揚,以及 Intel 和 AMD 積極向投資人溝通其 AI 策略。
五、產業投資邏輯的多維視角
綜合以上分析,我們可以從幾個維度梳理 AI 記憶體產業鏈的投資邏輯:
維度一:GPU 記憶體(HBM)
這是目前最直接受惠於 AI 訓練需求的記憶體類型。SK Hynix、Samsung、Micron 是 HBM 市場的三大玩家。HBM 的技術門檻極高,需要將多個 DRAM 晶片垂直堆疊並通過矽穿孔(TSV)技術連接,良率控制是關鍵。目前 SK Hynix 在 HBM 市場處於領先地位,Samsung 正在追趕,Micron 則希望通過 HBM4 新架構實現後來居上。
維度二:系統記憶體(DDR5)
雖然 DDR5 不像 HBM 那樣直接用在 GPU 內部,但在 AI 資料中心伺服器中,系統記憶體的需求同樣在快速增長。一方面,更大的模型需要更多的系統記憶體來加載參數;另一方面,CXL 擴充記憶體架構可能給 DDR5 帶來新的應用場景。這塊市場的主要玩家包括 Samsung、SK Hynix、Micron(全球三大),以及南亞科、華邦電(台灣廠商)。
維度三:儲存記憶體(NAND Flash)
AI 訓練產生的大量資料需要儲存,模型檔案、訓練資料集、檢查點都需要快速儲存。這裡除了傳統 SSD 外,還有一個新興應用:推理模型的快速加載。當用戶發起推理請求時,模型需要從儲存裝置快速載入到 GPU 記憶體,這對儲存裝置的隨機讀取性能提出了更高要求。Sandisk、Kioxia、Samsung、Micron 是這個領域的主要玩家。
維度四:封裝與互連
這是近年來最受矚目的新增長點。先進封裝技術(如 CoWoS、SoIC)將 GPU 晶粒與 HBM 記憶體封裝在一起,實現極高的頻寬和低延遲。這塊市場目前由台積電主導,也是為什麼台積電在 AI 時代的戰略地位遠超純晶圓代工的角色。封裝產能已經成為 AI 晶片供應鏈的新瓶頸。
六、台灣廠商的機會與挑戰
在前述產業格局中,台灣廠商扮演什麼角色?南亞科作為報告中提到的投資標的,是一個值得關注的案例。台灣的 DRAM 產業在全球供應鏈中有一個獨特的定位:雖然市佔率不如韓國三大,但在特定應用領域(如消費電子、工業控制)有不錯的基礎。
南亞科目前的營運策略是轉向高利潤的特殊應用記憶體,包括利基型 DRAM 和 DDR5。如果 Sandisk 和 Kioxia 的投資成真,這可能意味著:第一,南亞科將獲得新的資本和技術支援,加速轉型;第二,台灣 DRAM 產業可能重新定位為「AI 記憶體供應鏈的一環」,而不只是消費電子供應商;第三,這也是外資對台灣半導體供應鏈投資的新模式——不是併購,而是戰略入股。
另一個值得關注的是華邦電。雖然報告未明確提及,但華邦電在車用電子和物聯網領域的特殊應用記憶體,同樣可能在 AI 邊緣運算的浪潮中找到新機會。此外,台積電在先進封裝領域的壟斷地位,以及日月光、矽品在封測領域的實力,都是台灣半導體產業在 AI 時代的核心資產。
七、投資風險與產業展望
對於想要投資 AI 記憶體產業鏈的投資人,有幾個關鍵風險需要考量:
首先,記憶體產業具有高度週期性。歷史上 DRAM 和 NAND Flash 都經歷過劇烈價格波動,每一次「超級週期」之後都會伴隨產能過剩和價格崩跌。AI 需求的增長是否足以支撐一個新的長期上升週期,還是會在 2-3 年後面臨供給過剩,是一個開放問題。
其次,技術路線的不確定性。KV Cache 壓縮技術(如 Google TurboQuant)如果普及,可能減緩對 HBM 容量需求的增長速度。CXL 架構如果能成功推廣,可能改變記憶體的配置邏輯。新型態的存算一體架構(如神經形態晶片、光子運算)可能在未來十年徹底顛覆現有的記憶體需求結構。
第三,地緣政治風險。半導體產業鏈高度全球分工,HBM 需要韓國的記憶體晶片、台灣的封裝技術、美國的設計工具;NAND Flash 的主要產能在日本和韓國;DRAM 的關鍵設備來自荷蘭和日本。任何地緣衝突或貿易限制都可能衝擊供應鏈。
從產業發展趨勢來看,AI 記憶體的需求增長是結構性的,而非週期性的。大型語言模型的參數規模每 6-10 個月翻倍,推理請求量以更快的速度增長。即使計算效率持續提升,記憶體需求的絕對量仍然會增長。關鍵是,這個增長會集中在哪些類型的記憶體上。
結語:記憶體是 AI 時代的石油?
把 KV Cache 視為「數位石油」的比喻並不誇張。在 GPU 算力相對充足的當下,記憶體容量正在成為 AI 部署的主要限制因素。這不是暫時現象,而是 AI 運算範式轉型的結構性結果。
Google 的 TurboQuant 技術表明,軟體和演算法的優化可以大幅提高記憶體效率,這對產業是好事——它降低了 AI 應用的門檻,讓更多企業能夠負擔大模型部署。但從另一個角度看,這種優化也代表著對記憶體效率的爭奪進入了新階段:單純增加硬體容量已經不夠,還需要在演算法、架構、封裝等多層次協同優化。
Sandisk 和 Kioxia 投資南亞科的新聞,則提醒我們記憶體產業的重組正在加速。NAND Flash 巨頭不甘心只在儲存領域耕耘,它們也想要在 AI 記憶體供應鏈中佔有一席之地。這種戰略佈局,可能預示著未來兩三年內更多類似的投資和併購。
對於投資人而言,理解 AI 記憶體產業鏈的關鍵在於:不要只看 NVIDIA 和 GPU,也要看記憶體(HBM、DDR5、NAND)和封裝;不要只看訓練需求,更要看推理需求;不要只看量,更要結構變化。AI 的未來,某種程度上取決於我們能在多大的程度上突破記憶體的物理限制。而在這場記憶體革命中,誰能掌握關鍵技術,誰就能分享 AI 時代的最大紅利。
八、從技術細節理解 KV Cache 的戰略價值
要真正理解 KV Cache 為什麼這麼重要,我們需要深入技術層面。當 Transformer 模型進行推理時,每一個新生成的 token 都需要與之前所有的 token 計算注意力權重。這個計算的時間複雜度是 O(n²),其中 n 是序列長度。對於一個 70 億參數的模型,單個 token 的 KV Cache 可能需要數百 MB 的記憶體空間。
更具體地說,假設我們使用一個 128K token 上下文視窗的模型,採用 FP16 精度。在這種配置下,單個推理請求的 KV Cache 可能就需要超過 10GB 的 GPU 記憶體。如果我們希望同時服務多個用戶(batch inference),每一個額外的用戶都會線性增加記憶體消耗。這就是為什麼許多企業在部署大模型時發現,瓶頸不在於 GPU 的算力,而在於 GPU 的記憶體容量。
Google 的 TurboQuant 技術之所以引起關注,是因為它提供了一條繞過這個瓶頸的路徑。通過動態量化和智慧壓縮,可以在幾乎不損失模型準確度的情況下,將 KV Cache 的記憶體佔用降低到原本的六分之一。這意味著原本只能服務 1 個用戶的 GPU,現在可以服務 6 個用戶——對於雲端服務商來說,這直接轉化為數倍的營收增長潛力。
九、記憶體產業的「AI 週期」正在形成
從更宏觀的角度看,記憶體產業正在經歷一個結構性的變化。過去二十年,DRAM 和 NAND Flash 的需求主要由消費電子(PC、智慧型手機)驅動,價格週期與終端消費需求高度相關。但 AI 時代的記憶體需求具有不同的特性:雲端資料中心的資本支出更加穩定,技術迭代更加快速,且對性能的要求遠高於消費級產品。
這意味著記憶體廠商需要調整產品策略。HBM 的生產需要全新的製程和封裝技術,良率提升需要時間;DDR5 的價值不再只是容量,還有速度和延遲;NAND Flash 需要更高可靠性的企業級產品。能夠快速完成這些轉型的廠商,將在 AI 時代獲得更強的定價權。
對於韓國三大記憶體廠商(Samsung、SK Hynix、Micron)來說,這既是機會也是挑戰。機會在於 AI 帶來的結構性需求增長;挑戰在於需要巨額資本支出來建設 HBM 產能,而這些產能一旦建成,可能面臨技術迭代帶來的折舊壓力。這就是為什麼記憶體股票的估值通常低於軟體公司——投資人需要考量週期性風險。
十、台灣半導體供應鏈的 AI 機會
在 AI 記憶體供應鏈中,台灣的角色正在從「代工製造」轉向「戰略節點」。台積電的先進封裝技術(CoWoS、SoIC)已經成為 AI 晶片不可或缺的環節;日月光和矽品的封測服務同樣在 AI 晶片供應鏈中佔據重要位置。這些公司不直接生產記憶體晶片,但它們的技術能力決定了 AI 晶片的性能上限。
對於關注台股市場的投資人而言,需要區分不同類型的 AI 受惠股。第一類是「直接受惠」,如台積電、日月光,它們直接參與 AI 晶片的製造和封裝;第二類是「間接受惠」,如南亞科、華邦電,它們可能在 AI 帶動的記憶體需求復甦中獲益;第三類是「配套受惠」,如譜瑞-KY、祥碩,它們提供高速傳輸介面和電源管理晶片。
從估值角度來看,直接受惠股已經反映了相當程度的 AI 預期,但間接受惠和配套受惠可能還有空間。特別是像南亞科這類公司在 DRAM 週期底部時,往往提供不錯的風險報酬比。當然,這類投資需要對記憶體週期有深入理解,且能夠承受較大的價格波動。
十一、結論:AI 時代的記憶體投資框架
總結來看,AI 推論的記憶體革命正在重塑半導體產業的投資邏輯。對於投資人而言,理解這個趨勢需要建立一個多層次的分析框架:
第一層是技術變化。KV Cache 壓縮、CXL 架構、先進封裝等技術如何改變記憶體需求的結構?哪些公司能夠掌握這些技術?這些問題決定了長期的產業格局。
第二層是週期位置。記憶體產業具有明顯的週期性,AI 需求何時能夠消化新增產能?目前是週期的上升階段還是頂部?這些問題決定了中期的投資時點。
第三層是估值水準。市場是否已經充分反映了 AI 帶來的成長預期?哪些公司還存在估值錯配的機會?這些問題決定了具體的標的選擇。
在這個框架下,Google TurboQuant 技術的意義在於:它提醒我們 AI 的效率改進可能來自多個維度,不只是更大的 GPU 和更多的記憶體,還有更聰明的演算法和更優化的架構。對於記憶體廠商來說,這意味著不能只依賴需求增長帶動營收,還需要持續技術創新來保持競爭力。
對於 Sandisk 和 Kioxia 投資南亞科的新聞,它提醒我們產業整合正在加速。未來的記憶體市場可能不再是 NAND、DRAM、HBM 各自為政,而是整合的「記憶體解決方案」供應商。
對於投資人而言,這場記憶體革命提供了一個理解 AI 產業的新視角。當市場都在討論 NVIDIA 的 GPU 時,真正聰明的資金可能正在佈局 GPU 的「記憶體夥伴」。而當所有人都關注 AI 模型的參數規模時,真正決定部署成本的,往往是那些看不見的 KV Cache。
投資建議免責聲明:本文僅為產業分析與觀點分享,不構成任何投資建議。股市有風險,投資需謹慎。文中提及的公司僅為學術探討對象,不代表任何買賣推薦。























