儘管說是伺服器測試驗證的心得
但每家公司乃至每個部門還是會有差異
公司差異為代工或是自有品牌
做代工的公司 我想是由上游的品牌廠決定要驗證哪些項目
從各家職缺工作內容來看
產品有沒有要取得作業系統的認證是代工與自有品牌公司最大的差異
換句話說 在公司選擇時 付出越多勞力的就能得到比較高的報酬
值不值得就看個人了 畢竟似乎在這行業要賺大錢還是要靠投資而非薪資
而公司內部們差異則是源自於產品
Intel, AMD, Nvidia都不一樣
公司應該都是某部門負責某項產品
隔壁部門人手不足時才派人支援
我覺得純新人在面試前記住Intel, AMD, Nvidia產品的硬體規格和該公司的內部產品代號就算有概念了
雖然只要說有組過電腦就接近入取了
但只會組電腦上班會很痛苦
這個職位純粹是江湖一點訣 說破不值錢
還沒進入狀況前會不知道該怎麼做事
然而多做幾遍後又很容易覺得簡單到不知道該怎麼教人
於是我才趁現在入職已半年 分享一些或許有用的消息
同時也樂見有前輩願意指點一二 讓彼此成為更好的人
以下我將說明自己的工作內容
1. 網通伺服器產品測試
2. Issue Debug與研發團隊解決問題
3. Performance性能調較與分析
4. 完善流程及測試相關文件
5. 學習並分享新技術
上述是我收到的職缺介紹
起初是看到第五點才想去面試的
畢竟如果有時間學新技術就代表不會永無止盡地應付bugs
實際上這也是個負擔 因為是全新的東西沒人會只能靠自己
我覺得只要有保持不斷在學習的狀態(練英文或專業知識都可以)
不要抗拒學新東西 都還是能有東西交差
因為我也做過筆電的SIT
接下來請容許我將兩者互相比較
筆電的時候前兩週有前輩手把手教學
兩週後開始幫忙驗issues 然後就是沒日沒夜的生活了
伺服器則是部門規定兩個月的新人訓練
但學長會說自己當時只有一個月而已
主管則會說我當時只train一週就上工了欸
所以要盡量趁這兩個月好好的把test plan百分之百學會
否則之後就走著瞧了
我覺得CPU比較麻煩而IPMI意外地實用
縱使有些測項能用自動化工具跑
但遇到問題要分析時還是得自己來
所以不要聽學長說用工具跑就好而掉以輕心了
以純新人而言
組裝伺服器還是最大的難關
一個沒注意CPU針腳就拜拜 整塊板子就沒救了
memory(以下稱呼為DIMM)也很容易壞掉
所以接下來我將分享組裝系統的心酸
雖然我經常東西拿到就裝上去了
但專業的做法是要先看系統規格
舉例來說
不是拿AMD的CPU裝在AMD的系統上就一定沒問題了
因為可能CPU瓦數最高會到500瓦 系統卻在常溫環境最高只能處理400瓦
這種情況就要用水冷散熱器才行或是用溫溼度控制的機器輔助
官網的產品規格會標注
CPU
AMD EPYC™ 9005 Series Processors
AMD EPYC™ 9004 Series ProcessorsDual processor, cTDP up to 400W [1]
而Intel的CPU和Heatsink(散熱器)需要對應的Socket(一個軟殼) 有黑色和灰色兩種
像LGA4710就是灰色的 Socket上面會寫自己的編號
組裝CPU,Socket,Heatsink到主機板插槽的口訣是三角形對三角形
若Heatsink沒有三角形 而正上方貼紙有箭頭 那就是把箭頭朝系統背面放下
AMD的Heatsink可能兩個都沒有 那就是比較胖的那一端在系統開機按鈕這邊
若板子上Heatsink螺絲位置有防呆就不用這麼麻煩了
裝Heatsink的口訣是電動起子調到五(太大力Heatsink會爆掉)
對角線的先鎖 各鎖一半後再全部鎖緊
AMD的Heatsink要先把中間的兩個鎖緊再鎖對角
拆掉則是要四角先全部鬆開
Heatsink感覺沒鎖下去就要用力壓才會咬到螺絲
如果要測試CPU效能 那麼要重新塗散熱膏降低過熱風險
CPU和Heatsink上面的散熱膏要先擦乾淨
要是上面的乾掉就沒用了
將CPU塗一層薄薄平平的散熱膏即可
塗太多或是太靠近邊緣
Heatsink壓下來會溢出 搞得到處都是要清也不好清 還容易把散熱膏弄到針腳插座上 徒增主機板報銷之風險
於是裝AMD的CPU我會先蓋上針腳插座的保護蓋
CPU插進去後再把保護蓋拿開
而Intel 4U的系統 Heatsink內部有自己的風扇 於是在安裝時手一定要抓著那條線
否則常常那條線就跑到Heatsink底下 一放下去針腳就拜拜了
主機板或是系統中央的板子上會有那條線該接上的地方
確認的方法是查看系統是否有CPU_Fan的感測器運作
總結來說
裝CPU最怕針腳出大事 針腳歪了可能會造成CPU或記憶體認不到
若是過熱並且確定系統有支援該CPU之瓦數 則優先重塗散熱膏
鎖Heatsink建議戴手套避免受傷
除了確認插槽方面和兩邊同時按下去之外
拆卸DIMM之前務必要等到電源指示燈熄滅(不能拔掉插頭還是橘燈時就拆)
否則高機率DIMM會拜拜 可能是因為三不五時就在壓力測試 意外脆弱
另一方面記得戴手套 這一點可能是敝公司產品的特色
每個人裝DIMM總是會莫名其妙擦傷或是指甲斷了
常常一恍神 HDD 就裝反了 (HDD裝到 tray上卻凸了一塊)
從tray拆下來的方法是手往背面空白處推
要是推不出來就先把一邊掰開來再推
通常這種不好推最好戴手套弄 避免受傷
無論是否支援熱插拔 系統使用中的硬碟如果在開機狀態下直接拔掉 會有遺失資料的風險
有重要資料的硬碟 最安全的做法跟拆卸DIMM一樣
務必要等到電源指示燈熄滅才做下一步
有的系統有專屬SATA的slots 這種會認不到NVMe
而NVMe的slots SATA和NVMe都認得到
系統的SATA如果是靠轉接卡 那麼在BIOS Menu 和 IPMI會認不到
(IPMI是和BIOS要硬體資訊的)
如果同時SATA和NVMe都有裝OS 則由PCIe bus順序決定開機順序
所以保持硬碟乾淨很重要
OCP card 不用開蓋就能更換 但要聽到喀的聲音才是真的有裝到
On board Lan同時能當BMC lan的功能似乎叫做 SCSI
OCP card要調整主機板上的指撥開關才會開啟這樣功能
而OCP card若是broadcom或Mallox等大廠的都要上驅動程式
Lan card要注意擋板長短與網路線
擋板長短是看系統決定
換擋板要小心 接口處很容易卡住然後就報銷了 雖然那邊壞掉沒關係 但壞掉總歸不好
網路線是根據網路速度決定 現在最高好像有到800G
很貴所以要小心
跟主機一樣要記得接電源線 (他們好像把這種線叫做connact)
驅動程式我覺得最方便的做法是先在官網查該產品的cuda版本號碼
直接從cuda檔案一次把驅動跟cuda裝好
如果驅動沒裝成功 cuda也不會安裝 可以很放心
後端要與系統連接處千萬不能碰到
驅動程式要記得H系列是PCIe HGX系列才是你要的
常碰到的應該就這些
其他的可能就是接線接觸不良
像是前端面板的網路燈沒亮、風扇沒轉
或是裝Hard RAID card後 忘了把線接回去原本的配置
下一篇文章再講系統組裝後的新手上路