〖第50期錯誤更正〗
多執行器(Multi-Actuator)技術並非用於SSD,而是用於提升傳統HDD讀寫效率的技術。
其實核心概念也沒有很深奧...就是傳統HDD只配備一個讀寫頭,它配備二個(Multi-Actuator Technology簡稱MACH.2),如此而已;但說來簡單,做起來一點也不簡單,研發難度很高,涉及精密的機械、電子和韌體(註一)整合,是硬碟產業的一項重大工程!這項技術歷經多年研發與測試才得以實現商業化,這也形成了一個特殊護城河,即硬碟這種原本被認為是"夕陽"的產業,在過去基本上已沒有新公司願意加入;但現在卻反過來為STX形成一種強大的進入壁壘,因為若有新創目前才想切入,投入數十億美元研發精密機械結構與控制韌體,其財務風險與技術門檻會高得不成比例!這種技術要求在奈米級別的精度下控制兩個高速運作的讀寫頭,有多難?
你可以想成在兩架高速飛行的飛機之間精確傳遞物品,大概就真的這麼難。並且此技術的開發正好也與前期提到的HAMR技術形成互補,當資料中心的儲存需求越來越大、HAMR硬碟的單顆容量也將在不遠的未來達到動輒100TB,若使用傳統 HDD單獨寫頭設計,就會使讀寫效能遇到瓶頸,故MACH.2技術能讓冷層資料之存取速度大幅提升,滿足 AI、雲端等資料密集型應用需求]
〖第50期專有名詞背景知識補充〗
我們有提到TCO這個縮寫,但沒有明確跟大家拆解意涵,為確保非特定背景之讀者也能看懂,於此稍作補充說明;TCO全稱Total Cost of Ownership,中文譯作"總體擁有成本",聽起來很饒舌,但大家不用想的太複雜,簡單來說就是你買一樣產品,從"搖籃到墳墓"你需要付出的所有成本,故以我們買車為例不只限於當下花了多少錢買那輛車,包括後續保養、維修、甚至每年稅費都要算在裡面,一直到它報廢或二手清算完殘值賣出後,"完全不會再花到你一毛錢"為止]
第50期的最後,我們為各位讀者留下一個值得思考的問題:「未來AI數據中心儲存是否可能轉向全SSD或其他新貯存技術?」
事實上,根據最新的產業趨勢和預測,為應對 AI 運算在高性能、低延遲與大規模數據吞吐上的極端需求,未來 AI 數據中心的儲存架構將加速轉型;在靠近前端運算的熱層場景中,「全SSD」配置確實已成為標準,並且新型SSD的開發已往具備計算儲存(Computational Storage,簡稱CS)能力做演進(註二)。
雖然整個「數據中心的儲存全部都是SSD」,在理論上並非不可行,但實際上不會這麼做,因為在海量原始數據的長期封存(Cold Storage)冷層領域,HDD仍憑藉極低的每 TB 成本保有優勢,其與SSD的價差是用"幾倍"來計算的。
有些反方觀點可能會認為,在電力運用效率上(Performance per Watt),SSD之優勢使其TCO在某些特定情境下已優於HDD。但事實是,成本的差異,對於只要存幾 TB 的人來說沒差,但對於亞馬遜 (AWS) 或 Google 這種動輒 EB(Exabyte,百萬TB)級別的數據中心,3到5倍的採購成本價差是天文數字,根本無法單靠「省電」來回本,因此未來更可能是:
「SSD 負責運算與快取,HDD 負責容量與封存」的互補格局,而非單純的全面替代;整體(包含冷層)則會走向更高效的混合架構
換句話說,假設未來SSD的單位儲存成本遠遠低於HDD的情況下,那data center採用全SSD配置才有可能,但這個假設亦會面臨兩個重大挑戰:
- 雖然記憶體相較於邏輯IC製程(也就是台積電在做的)已經簡單很多,但也只是相對於台積是簡單,對於一般傳產而言其客觀資本密集、技術密集程度還是很高;且實際上「SSD的單位儲存成本遠遠低於HDD」就有點像forward PE(前瞻市盈率)的概念,除非記憶體產業都"暫停"發展,同時HDD快速追趕,才有可能達成。但實際上記憶體產業更有可能的是快速繼續向前開發新技術而非"暫時停止呼吸";所以這個假設客觀上就不太可能成真。也就是說不管如何,"最前沿"的固態記憶體生產技術,其報價給客戶之最終單位貯存成本幾乎可說永遠不可能比HDD還便宜!
最客觀的證據就是:目前企業級 HDD 的單位成本仍是 SSD 的 1/5 ~1/7 左右。要抹平這 5 倍以上的差距,除非NAND flash或DRAM在不需要大幅增加研發經費及製程成本的前提下,發生革命性的物理突破(這用膝蓋想都不可能),否則在可預見的未來,HDD在大規模資料貯存之性價比上仍有結構性優勢。 - 第二個重點在於資料損壞機率。因為儲存物理機制的不同,SSD的損壞率大於HDD;這在熱層沒差,頂多就是壞掉就換,因為資料只是暫時"熱交換"而已,但在需要"永久儲存"的冷層場景中就不是這樣了,假設冷層也全面使用SSD,換算其單位資料(每TB)相對於HDD的損壞機率,不要說六標準差了(註三),可能連正常三標準差(即第51期常態分佈曲線描述左右各3σ那張圖)都有困難,而是光這點,data center就不可能承受這樣的風險。尤其是重要數據的遺失!
而上述的第二點,其背後的物理機制尤為重要,也是我們整套分析最堅實的立論依據,尤期在搭配統計學綜合拆解檢視後,你會更知道Mark分析時的自信究竟從何而來。
礙於篇幅,下期,我們將繼續深入拆解SSD在資料損壞機率與物理機制上的硬傷。
〖註一〗何謂韌體(Firmware)?
硬體大家知道、軟體大家也知道;韌體其實就是介於兩者中間,非硬體也非純軟體的存在,通常涉及"讓硬體是否能正常運作"的關鍵代碼,正常狀況下終端使用者是無法touch到的。這裡也來上個有趣的科技英文課:
硬體--英文單字Hardware在 16 世紀就已存在,最初是指金屬製的五金工具。
軟體--英文單字為Software,約在 1958 年由統計學家 John Tukey首次在論文中使用。 (題外話,這個人很厲害,就是提出事後檢定法的那個人,事後檢定是什麼在本文不是很重要,所以看看就好)連大家今天熟悉的Bit這個單字也是他發明的(最早只有Binary digit二進位數字這個詞)。
韌體--Firmware這個字的誕生比Software晚了近 10 年,是為了描述當時新型態的「微程式(Microcode)」而由美國電腦科學家 Ascher Opler創造的。當初是因為他認為這種"嵌在硬體裡的程式碼",既不像硬體那樣完全不可變動,也不像一般軟體那樣可以讓末端使用者輕易更改,它是「固定的東西」,因此取「Firm」(穩固、堅定)結合「Ware」而成。
〖註二〗CS(不是Counter-Strike)
意即資料從NAND flash取出前就已經在SSD裡面做好前處理,而不用浪費GPU(or其他AI加速器,詳15期)的算力來處理這些無關訓練或推理的事情;就像飯店裡的幫廚(CS專用晶片)做好食材(數據)前處理後,主廚(GPU)只要專心發揮廚藝就好。
〖註三〗六標準差(由美國學者Bill Smith提出。)


生活實例如下

總之大家只要理解:六標準差要的不是完全不會出錯,而是「幾乎不會出問題」。
如果對應到data center在永久儲存資料上,關於數據遺失的容錯性,那需要的就是這樣的標準!















