NVMe SSD 測試流程全攻略_功能驗證

更新於 2025/07/12發佈於 2025/06/22閱讀時間約 39 分鐘

引言:NVMe協議的崛起及其對SSD性能的影響

在數位化浪潮席捲全球的今天,數據已成為驅動各行各業發展的核心引擎。從個人電腦、智慧型手機,到企業級資料中心、雲端運算,乃至於人工智慧(AI)與大數據分析,數據的生成、儲存、處理與傳輸速度,直接決定了系統的響應能力與業務的運作效率。在這一背景下,儲存技術的演進顯得尤為關鍵。固態硬碟(Solid State Drive, SSD)憑藉其相較於傳統機械硬碟(HDD)在速度、延遲、功耗和可靠性上的顯著優勢,已然成為現代計算系統中不可或缺的儲存介質。

然而,隨著處理器技術(CPU)、記憶體(RAM)以及互連技術(如PCIe)的飛速發展,傳統的儲存介面,如SATA(Serial Advanced Technology Attachment)和SAS(SerialAttached SCSI),逐漸成為SSD性能發揮的瓶頸。這些介面最初是為機械硬碟設計的,其命令佇列深度、傳輸效率和協議開銷,都無法充分釋放NAND Flash的潛力。SSD雖然擁有極高的內部並行處理能力,卻受限於外部介面的「交通堵塞」,猶如一輛輛超級跑車被困在狹窄的鄉間小道上,無法盡情馳騁。

正是在這樣的技術背景下,NVMe(Non-Volatile Memory Express)協議應運而生。NVMe是一種專為固態儲存設計的邏輯設備介面規範,它利用PCI Express(PCIe)匯流排直接連接主機CPU與SSD,從而大幅減少了命令傳輸路徑上的延遲和協議開銷。相較於SATA/AHCI協議,NVMe帶來了革命性的提升:

極低的延遲:NVMe協議將命令佇列從AHCI的單一佇列(深度為32)擴展到最多65535個佇列,每個佇列深度可達65536。這意味著SSD可以同時處理數百萬個I/O請
求,極大地減少了命令等待時間,從而實現毫秒級甚至微秒級的延遲。
更高的吞吐量:NVMe利用PCIe匯流排的高帶寬特性。隨著PCIe Gen4、Gen5乃至未來的Gen6技術的發展,單個NVMe SSD的理論吞吐量已可達到數GB/s甚至數十GB/s,
遠超SATA介面的600MB/s限制。
更低的CPU開銷:NVMe採用更高效的命令提交和完成機制,減少了CPU在處理I/O請求時的負擔,釋放了CPU資源用於更重要的計算任務。
更豐富的功能集:NVMe協議原生支持多佇列、原子寫入、命名空間管理、多路徑I/O、端到端數據保護等高級功能,為企業級應用和資料中心提供了更強大的儲存管理
能力。

NVMe的出現,不僅解除了SSD的性能封印,更為高性能計算、雲端運算、AI訓練等對儲存性能有極高要求的應用場景提供了堅實的基礎。然而,性能的提升也意味著複雜性的增加。NVMe SSD的設計、製造和驗證,都面臨著前所未有的挑戰。其內部包含的NAND Flash、主控制器、DRAM、韌體以及PCIe介面等眾多複雜組件,任何一個環節的缺陷都可能導致嚴重的性能問題或數據損壞。

因此,對於NVMe SSD而言,一套專門且全面的測試流程顯得尤為重要。這不僅是為了驗證其是否達到標稱的性能指標,更是為了確保其在各種複雜、極端的真實使用情境下,都能夠穩定、可靠、高效地運作,保障數據的完整性與安全性。本攻略將深入探討NVMe SSD的測試方法和流程,從基礎指令到複雜的性能與穩定性驗證,提供實用的指南和腳本範例,旨在幫助讀者全面理解並掌握NVMe SSD的驗證精髓。

1. NVMe基礎知識回顧

在深入探討NVMe SSD的測試流程之前,有必要對NVMe協議的核心概念進行簡要回顧。理解這些基礎知識,將有助於我們更好地理解測試的目標和方法。

1.1 NVMe協議棧

NVMe協議棧可以從邏輯上分為幾個層次,類似於網路協議棧,每一層負責不同的功能:

應用層 (Application Layer):這是用戶應用程式與SSD交互的最高層次。應用程式通過文件系統(如NTFS, ext4)發出讀寫請求,這些請求最終會被轉換為NVMe命令。
文件系統層 (File System Layer):作業系統中的文件系統負責管理數據的組織、存儲和檢索。它將應用程式的邏輯請求轉換為塊設備層的物理請求。
塊設備層 (Block Device Layer):作業系統將SSD視為一個塊設備,處理固定大小的數據塊(通常是512字節或4KB)。
NVMe驅動層 (NVMe Driver Layer):這是作業系統中負責與NVMe控制器交互的軟體
層。它將塊設備層的請求轉換為NVMe命令,並通過PCIe匯流排發送給SSD控制器。同
時,它也負責接收來自SSD的完成通知。
NVMe控制器層 (NVMe Controller Layer):這是SSD內部的硬體邏輯,負責解析NVMe命令、管理NAND Flash、執行數據讀寫、垃圾回收、磨損均衡等操作。它通過PCIe介面與主機通信。
PCIe物理層 (PCIe Physical Layer):這是最底層的硬體介面,負責數據的物理傳輸,包括信號編碼、解碼、時鐘同步等。PCIe匯流排提供高速、低延遲的數據通道。

1.2 NVMe命令集

NVMe定義了一套精簡高效的命令集,主要分為兩大類:

管理命令 (Admin Commands):用於管理NVMe控制器和命名空間,例如:
- Identify :獲取控制器或命名空間的詳細信息(如容量、支持的功能、韌體版本)。
- Format NVM :格式化命名空間。
- Firmware Commit/Image Download :韌體更新相關命令。
- Get Log Page :獲取各種日誌頁面,如SMART信息、錯誤日誌等。
- Set Features/Get Features :設置或獲取控制器或命名空間的特性。
I/O命令 (NVM Commands):用於數據讀寫操作,例如:
- Read :從命名空間讀取數據。
- Write :向命名空間寫入數據。
- Flush :將緩存中的數據強制寫入NAND Flash。
- Write Uncorrectable :標記一個LBA範圍為不可讀寫(用於模擬壞塊)。
- Dataset Management (DSM) :用於通知控制器某些LBA範圍不再使用(如TRIM命令)。

NVMe命令的設計目標是減少CPU開銷和延遲,例如,它支持原子寫入(Atomic Write),允許一次性寫入多個邏輯塊,確保數據的一致性。

1.3 命名空間 (Namespace)

在NVMe協議中, 命名空間是SSD控制器提供給主機的一個可獨立尋址的數據儲存區域。一個NVMe控制器可以支持多個命名空間, 每個命名空間可以有不同的容量、塊大小和保護屬性。這使得SSD可以更靈活地分配和管理儲存資源, 例如:

將一個物理SSD劃分為多個邏輯命名空間, 供不同的應用程式或虛擬機使用。
為不同的命名空間配置不同的性能或可靠性屬性(例如, 一個命名空間用於高性能數據, 另一個用於高耐久性數據)。

每個命名空間都有一個唯一的命名空間ID(NSID), 主機通過NSID來訪問特定的命名空間。測試時, 我們通常會針對特定的命名空間進行操作。

1.4 命令佇列 (Command Queue) 與完成佇列 (Completion Queue)

NVMe協議的核心優勢之一是其高效的命令處理機制。它採用了命令佇列(SubmissionQueue, SQ)和完成佇列(Completion Queue, CQ)的設計:

命令佇列 (SQ):主機將要執行的NVMe命令放入SQ中。一個NVMe控制器可以支持多達65535個SQ,每個SQ的深度可以達到65536。這使得主機可以同時向SSD發送大量的命令,實現高度並行化。
完成佇列 (CQ):當SSD控制器完成一個命令後,它會將完成狀態信息放入CQ中。每個CQ可以與一個或多個SQ關聯。主機通過輪詢CQ或接收中斷來獲取命令完成通知。

這種多佇列設計極大地提升了I/O並行度,減少了命令處理的延遲,是NVMe實現高性能的關鍵。在測試中,我們會利用這一特性來模擬高併發的工作負載。

1.5 記憶體緩存 (Memory Buffer) 與分散/收集列表 (Scatter/Gather List,SGL)

NVMe協議還優化了數據傳輸機制:

記憶體緩存 (Memory Buffer):SSD內部通常包含DRAM作為數據緩存,用於加速讀寫操作。NVMe協議允許主機直接訪問SSD的記憶體緩存,進一步降低延遲。
分散/收集列表 (SGL):SGL是一種高效的數據傳輸機制,允許數據在主機記憶體中不連續的物理頁面之間進行傳輸,而無需額外的數據拷貝操作。這減少了CPU的負擔,提升了數據傳輸效率。

理解這些NVMe基礎知識,將為我們後續的測試流程和方法奠定堅實的理論基礎。接下來,我們將進入實際的測試環節,從最基本的操作指令開始。

2. 基本指令與功能驗證

在進行任何複雜的性能或穩定性測試之前,首先需要對NVMe SSD進行基本的功能驗證,確保其能夠被系統正確識別、基本操作正常,並能獲取其健康狀態信息。NVMe-CLI(NVMeCommand Line Interface)是一個強大而實用的工具,它允許用戶直接向NVMe設備發送命令,獲取詳細信息並執行各種操作。

2.1 NVMe-CLI工具使用

NVMe-CLI是Linux環境下管理NVMe設備的標準工具集。在大多數現代Linux發行版中,它通常預裝或可通過包管理器輕鬆安裝。例如,在Ubuntu/Debian系統中:

sudo apt update
sudo apt install nvme-cli

安裝完成後,我們可以利用一系列 nvme 命令來與SSD進行交互。

2.1.1 設備列表與基本信息 ( nvme list )

這是最常用的命令之一,用於列出系統中所有可用的NVMe設備及其基本信息。

命令範例:

nvme list

預期輸出:

驗證要點: * 確認所有預期的NVMe SSD都被正確識別。 * 檢查序列號(SN)、型號(Model)、容量(Usage)和韌體版本(FW Rev)是否與產品規格一致。 * 注意設備節點名稱(如 /dev/nvme0n1 ),這將是後續操作的目標設備。

2.1.2 識別控制器信息 ( nvme id-ctrl )

此命令用於獲取NVMe控制器的詳細識別信息,包括控制器支持的功能、PCIe配置、韌體版本、最大佇列深度等。

命令範例:

nvme id-ctrl /dev/nvme0

預期輸出(部分):

驗證要點: * 核對Model Number、Serial Number、Firmware Revision是否正確。 * 檢查Version字段,確認NVMe協議版本是否符合預期(如1.3、1.4等)。 * 查看控制器支持的功能,例如: Optional NVM Command Support 、 Optional Admin Command Support等,確保SSD支持所有宣稱的功能。

2.1.3 識別命名空間信息 ( nvme id-ns )

每個NVMe SSD可以包含一個或多個命名空間。此命令用於獲取特定命名空間的詳細信息,如容量、LBA格式、數據保護設置等。

命令範例:

nvme id-ns /dev/nvme0n1

預期輸出(部分):

驗證要點 : * 確認 Namespace ID 是否正確。 * 檢查 Namespace Size 、 Capacity 、Utilization是否符合預期容量。 * 核對LBA Data Size(邏輯塊大小,通常為512字節或4096字節)是否正確。

2.1.4 獲取SMART健康信息 ( nvme smart-log )

SMART(Self-Monitoring, Analysis and Reporting Technology)日誌提供了SSD的健康狀態和運行統計信息,對於監控SSD的可靠性和預測潛在故障至關重要。

命令範例:

nvme smart-log /dev/nvme0n1

預期輸出(部分):

驗證要點: * Critical Warning:應為0。任何非零值都表示SSD存在嚴重問題。 *Temperature:監控SSD運行溫度,確保在正常範圍內。 * Available Spare:備用塊的百分比,當其接近Available Spare Threshold時,表示NAND Flash磨損嚴重,壽命將盡。 *Percentage Used:已使用的壽命百分比,應隨著使用時間和寫入量增加而增長。 * DataUnits Read/Written:讀寫數據量,用於計算TBW(Total Bytes Written)。 * PowerCycles/Power On Hours:上電次數和累計上電時間,用於評估SSD的運行時間。 *Unsafe Shutdowns:非安全關機次數,應為0。非零值可能表示掉電保護功能存在問題。* Media and Data Integrity Errors:媒體和數據完整性錯誤數量,應為0。非零值表示NAND Flash或數據傳輸存在問題。 * Number of Error Information Log Entries:錯誤日誌條目數量,應為0。非零值表示有錯誤發生,需要進一步查看錯誤日誌。

腳本範例:SMART日誌監控

以下是一個簡單的Bash腳本,用於定期監控NVMe SSD的SMART日誌,並在發現CriticalWarning或Media/Data Integrity Errors時發出警告。

#!/bin/bash
DEVICE="/dev/nvme0n1" # 替換為你的NVMe設備節點
LOG_FILE="/var/log/nvme_smart_monitor.log"
# 獲取當前時間
TIMESTAMP=$(date "+%Y-%m-%d %H:%M:%S")
echo "[$`TIMESTAMP] Checking SMART log for `$DEVICE..." | tee -a $LOG_FILE
# 獲取SMART日誌並解析關鍵信息
SMART_INFO=$`(nvme smart-log `$DEVICE)
CRITICAL_WARNING=$`(echo "`$SMART_INFO" | grep "Critical Warning" | awk'{print$3}')
TEMPERATURE=$`(echo "`$SMART_INFO" | grep "Temperature" | awk '{print $2}')
PERCENTAGE_USED=$`(echo "`$SMART_INFO" | grep "Percentage Used" | awk'{print$3}')
MEDIA_ERRORS=$`(echo "`$SMART_INFO" | grep "Media and Data Integrity Errors" |awk '{print $6}')
ERROR_LOG_ENTRIES=$`(echo "`$SMART_INFO" | grep "Number of Error Information Log Entries" | awk '{print $7}')
echo " Temperature: $`TEMPERATURE C" | tee -a `$LOG_FILE
echo " Percentage Used: $`PERCENTAGE_USED %" | tee -a `$LOG_FILE
echo " Media and Data Integrity Errors: $`MEDIA_ERRORS" | tee -a `$LOG_FILE
echo " Error Information Log Entries: $`ERROR_LOG_ENTRIES" | tee -a `$LOG_FILE
# 檢查警告狀態
if [ "$CRITICAL_WARNING" -ne "0" ]; then
echo "[$`TIMESTAMP] WARNING: Critical Warning detected on `$DEVICE! Value:$`CRITICAL_WARNING" | tee -a `$LOG_FILE
# 可以添加郵件通知或短信通知功能
fi
if [ "$MEDIA_ERRORS" -ne "0" ]; then
echo "[$`TIMESTAMP] WARNING: Media and Data Integrity Errors detected on`$DEVICE! Value: $`MEDIA_ERRORS" | tee -a `$LOG_FILE
# 可以添加郵件通知或短信通知功能
fi
if [ "$ERROR_LOG_ENTRIES" -ne "0" ]; then
echo "[$`TIMESTAMP] WARNING: Error Information Log Entries detected on`$DEVICE! Value: $`ERROR_LOG_ENTRIES" | tee -a `$LOG_FILE
# 可以添加郵件通知或短信通知功能
fi
echo "[$`TIMESTAMP] SMART log check completed." | tee -a `$LOG_FILE

將此腳本保存為 monitor_nvme_smart.sh 並賦予執行權限 ( chmod +xmonitor_nvme_smart.sh ),然後可以通過cronjob定期執行,例如每小時執行一次。

2.1.5 獲取錯誤日誌 ( nvme error-log )

當SMART日誌中的 Number of Error Information Log Entries 非零時,可以使用此命令查看詳細的錯誤日誌。

命令範例:

nvme error-log /dev/nvme0n1

預期輸出(部分):

Error Log Entries for device:nvme0n1
Entry 0
... (詳細錯誤信息,如錯誤狀態、命令ID、LBA等)

驗證要點: * 分析錯誤類型和發生的頻率,判斷問題的嚴重性。 * 錯誤日誌通常包含錯誤的命令ID、錯誤狀態、錯誤位置(LBA)等信息,對於Debug非常有用。

2.2 基本功能測試

除了使用NVMe-CLI獲取信息外,還需要對SSD的基本功能進行驗證,確保其核心操作正常。

2.2.1 讀寫功能驗證

最基本的功能是讀寫數據。可以使用 dd 命令或FIO工具進行簡單的讀寫測試。

命令範例(使用dd):

寫入測試:向SSD寫入一個大文件,然後讀回並比對。 bash # 寫入一個1GB的隨機數據
文件到 SSD dd if=/dev/urandom of=/dev/nvme0n1 bs=1M count=1024 oflag=direct status=progress # 讀取剛才寫入的數據到/dev/null,測試讀取性能dd if=/dev/nvme0n1 of=/dev/null bs=1M count=1024 iflag=direct status=progress 注意:直接向 /dev/nvme0n1 寫入會覆蓋其上的所有數據,請務必小心,確保操作的是正確的設備,且設備上沒有重要數據。
數據比對(使用md5sum): ```bash # 創建一個測試文件 dd if=/dev/urandomof=test_data.bin bs=1M count=100 # 計算原始文件的 MD5 值 md5sumtest_data.bin > original_md5.txt

將文件寫入SSD

dd if=test_data.bin of=/dev/nvme0n1 bs=1M oflag=direct

從SSD讀回數據到另一個文件

dd if=/dev/nvme0n1 of=read_data.bin bs=1M count=100 iflag=direct

計算讀回文件的MD5值

md5sum read_data.bin > read_md5.txt

比對MD5值

diff original_md5.txt read_md5.txt

`` **驗證要點**: diff`命令的輸出應為空,表示兩個文件的MD5值完全一致,數據完整性得到驗證。

2.2.2 格式化與分區驗證

驗證SSD是否能被正確格式化和分區,並在不同文件系統下正常工作。

命令範例:

# 卸載設備(如果已掛載)
sudo umount /dev/nvme0n1p1 # 如果有分區,需要卸載分區
# 清除所有分區表和數據
sudo wipefs -a /dev/nvme0n1
# 創建新的GPT分區表
sudo parted /dev/nvme0n1 mklabel gpt
# 創建一個新的分區,佔用所有空間
sudo parted -a opt /dev/nvme0n1 mkpart primary ext4 0% 100%
# 格式化分區為ext4文件系統
sudo mkfs.ext4 /dev/nvme0n1p1
# 掛載分區
sudo mkdir /mnt/nvme_test
sudo mount /dev/nvme0n1p1 /mnt/nvme_test
# 檢查掛載點和文件系統信息
df -h /mnt/nvme_test
lsblk

驗證要點: * 確認分區和文件系統創建成功。 * 檢查掛載點是否可讀寫。 * 嘗試在掛載點創建、刪除文件和目錄。

2.2.3 安全擦除 (Secure Erase) 驗證

安全擦除功能用於徹底清除SSD上的所有數據,確保數據不可恢復。這對於數據安全和隱私保護至關重要。

命令範例:

# 獲取SSD支持的安全擦除類型 (Format NVM command support)
nvme id-ctrl /dev/nvme0 | grep "Format NVM"
# 執行安全擦除 (假設支持Cryptographic Erase,且命名空間ID為1)
# 注意:此操作會永久刪除所有數據,請務必小心!
sudo nvme format /dev/nvme0n1 -s 2 -f # -s 2 for Cryptographic Erase, -f for force
# 擦除後再次檢查數據,確認數據已被清除
# 可以嘗試讀取設備,看是否返回全0或隨機數據
# dd if=/dev/nvme0n1 of=/dev/null bs=1M count=100

驗證要點: * 確認SSD支持安全擦除功能。 * 執行擦除後,嘗試讀取數據,確認數據已被清除(通常會讀出全0或隨機模式)。 * 檢查SMART日誌,確認擦除操作是否被記錄,且沒有產生錯誤。

2.2.4 韌體更新 (Firmware Update) 驗證

韌體更新是SSD生命週期中的常見操作,用於修復Bug、提升性能或增加新功能。驗證韌體更新過程的穩定性和成功率至關重要。

命令範例:

# 假設韌體文件為 firmware.bin,並位於當前目錄
# 1. 下載韌體映像到SSD的插槽 (slot)
# -s 1 表示下載到插槽1,-i 0 表示映像索引0
sudo nvme firmware download /dev/nvme0 -f firmware.bin -s 1
# 2. 提交韌體映像並激活
# -s 1 表示激活插槽1的韌體,-a 1 表示激活後立即重啟
sudo nvme firmware activate /dev/nvme0 -s 1 -a 1
# 3. 重啟系統 (或手動重啟SSD電源)
# 重啟後,再次檢查韌體版本
nvme id-ctrl /dev/nvme0 | grep "Firmware Revision"

驗證要點: * 確認韌體更新過程順利完成,沒有報錯。 * 更新後,檢查 nvme id-ctrl 輸出的Firmware Revision是否已更新到新版本。 * 進行基本讀寫測試,確保更新後的SSD功能正常,性能沒有下降。 * 在更新過程中模擬異常情況(如斷電),驗證韌體更新的魯棒性(是否能恢復到舊版本或進入安全模式)。

2.3 錯誤注⼊與恢復測試

錯誤注⼊測試是驗證SSD魯棒性和錯誤處理能⼒的關鍵環節。通過模擬各種異常情況，觀察 SSD的⾏為和恢復能⼒。

2.3.1 電源中斷測試 (Power Loss Test)

這是最重要的測試之⼀，⽤於驗證SSD的掉電保護（PLP）功能。PLP確保在意外斷電時， SSD緩存中的數據能夠安全地寫⼊NAND Flash，防⽌數據丟失或損壞。測試⽅法：準備：在SSD上寫⼊⼤量數據，並確保有⾜夠的未同步數據在緩存中（例如，使⽤FIO進⾏寫⼊，並設置 fsync=0 或 direct=1 但頻繁寫⼊⼩塊數據）。
斷電：在寫⼊過程中，突然切斷SSD的電源。這通常需要專⾨的電源控制設備或可編程電源供應器來精確控制斷電時機。
恢復：重新上電，檢查SSD是否能被系統正確識別。
數據驗證： * 檢查⽂件系統的完整性（如運⾏ fsck ）。 * 讀取斷電前寫⼊的數據，並與原始數據進⾏⽐對，確保數據完整性。 * 檢查SMART⽇誌中的 Unsafe Shutdowns 計數器是否增加，以及是否有 Media and Data Integrity Errors 。

腳本範例：簡化版掉電測試（需要外部電源控制）此腳本假設您有⼀個可以通過命令控制的智能電源插座或電源供應器。 power_off_ssd.sh 和 power_on_ssd.sh 是控制電源的外部腳本。

#!/bin/bash
DEVICE="/dev/nvme0n1"
MOUNT_POINT="/mnt/nvme_test"
TEST_FILE="$MOUNT_POINT/power_loss_test.data"
ORIGINAL_MD5="original_md5.txt"
READ_MD5="read_md5.txt"
# 1. 清理並準備文件系統
sudo umount $MOUNT_POINT 2>/dev/null
sudo wipefs -a $DEVICE
sudo parted -a opt $DEVICE mklabel gpt
sudo parted -a opt $DEVICE mkpart primary ext4 0% 100%
sudo mkfs.ext4 -F ${DEVICE}p1
sudo mount $`{DEVICE}p1 `$MOUNT_POINT
sudo chown $`USER:`$USER $MOUNT_POINT
# 2. 生成測試數據並計算MD5
echo "Generating test data..."
dd if=/dev/urandom of=$TEST_FILE bs=4K count=100000 # 400MB data
md5sum $`TEST_FILE > `$ORIGINAL_MD5
# 3. 開始寫入並突然斷電
echo "Starting write and performing sudden power off..."
# 在後台啟動FIO寫入，不進行fsync，模擬數據在緩存中
fio --name=power_loss_write --ioengine=libaio --direct=1 --rw=write --bs=4k -- numjobs=1 --size=1G --filename=$TEST_FILE --runtime=10 --group_reporting -- output-format=json & FIO_PID=$!
# 等待幾秒鐘讓寫入開始
sleep 3
# 執行外部腳本，突然切斷SSD電源
echo "Executing external power off script..."
# 假設 power_off_ssd.sh 腳本會切斷 /dev/nvme0n1 的電源
# 實際應用中，這需要與硬體測試平台集成
# ./power_off_ssd.sh $DEVICE
# 為了演示，這裡模擬斷電後的行為，實際測試需要硬體支持
kill -9 $FIO_PID # 模擬寫入被中斷
sleep 1
# 4. 重新上電並驗證數據
echo "Re-powering SSD and verifying data..."
# 執行外部腳本，重新開啟SSD電源
# ./power_on_ssd.sh $DEVICE
# 等待SSD重新被系統識別
sleep 5
# 檢查文件系統完整性
echo "Checking filesystem integrity..."
sudo umount $MOUNT_POINT
sudo fsck -y ${DEVICE}p1
sudo mount $`{DEVICE}p1 `$MOUNT_POINT
# 讀取數據並比對MD5
echo "Verifying data integrity..."
if [ -f "$TEST_FILE" ]; then
	md5sum $`TEST_FILE > `$READ_MD5
	diff $`ORIGINAL_MD5 `$READ_MD5
	if [ $? -eq 0 ]; then
		echo "Data integrity check PASSED: MD5 sums match."
	else
		echo "Data integrity check FAILED: MD5 sums do NOT match!"
	fi
else
	echo "Data integrity check FAILED: Test file not found after power loss."
fi
# 5. 檢查SMART日誌
echo "Checking SMART log for unsafe shutdowns..."
UNSAFE_SHUTDOWNS=$`(nvme smart-log `$DEVICE | grep "Unsafe Shutdowns" | awk '{print $3}')
echo "Unsafe Shutdowns: $UNSAFE_SHUTDOWNS"
# 清理
sudo umount $MOUNT_POINT
sudo rm -rf $MOUNT_POINT
rm $`ORIGINAL_MD5 `$READ_MD5 $TEST_FILE 2>/dev/null
echo "Power loss test completed."

注意:上述腳本中的 power_off_ssd.sh 和 power_on_ssd.sh 是佔位符,實際測試需要與硬體測試平台(如電源控制單元)集成。對於真正的掉電測試,需要精確控制電源,並在斷電後檢查SSD的狀態。

2.3.2 傳輸錯誤注入測試

模擬PCIe匯流排上的數據傳輸錯誤,驗證SSD的錯誤檢測和糾正能力。這通常需要專門的PCIe協議分析儀或錯誤注入設備。
測試方法:

準備:在SSD上進行正常的讀寫操作。
注入錯誤:使用PCIe協議分析儀或專用工具,在數據傳輸過程中注入錯誤,例如:CRC錯誤、數據位翻轉、包丟失等。
觀察:觀察SSD的行為,是否能正確報告錯誤、是否能通過ECC糾正錯誤、是否會導致數據損壞或系統崩潰。
驗證:檢查SSD的錯誤日誌( nvme error-log ),確認錯誤是否被記錄。進行數據比對,確保數據完整性。

2.3.3 命令注入與異常處理測試

向SSD發送無效、異常或惡意的NVMe命令,驗證SSD的韌體是否能正確處理這些情況,避免崩潰或數據損壞。

測試方法:

發送無效命令:發送不存在的NVMe命令、無效的LBA地址、超出範圍的數據長度等。
發送異常參數:在有效命令中包含異常參數,如負數的佇列深度、過大的數據傳輸大小等。
並發異常:在正常工作負載下,同時注入異常命令。
觀察:觀察SSD是否會返回正確的錯誤狀態碼、是否會導致韌體崩潰、是否會影響正常數據操作。
驗證:檢查錯誤日誌,確認異常命令是否被正確處理並記錄。進行數據比對,確保正常數據的完整性。

腳本範例:發送無效NVMe命令(概念性)

這是一個概念性的腳本,實際執行需要更底層的NVMe驅動或專用工具來構造和發送任意NVMe命令。 nvme-cli 通常不會允許發送完全無效的命令,但可以嘗試一些邊界情況。

#!/bin/bash
DEVICE="/dev/nvme0n1"
echo "Attempting to send an invalid NVMe command (conceptually)..."
# 嘗試使用一個不存在的命令碼 (例如,假設0xFF是一個無效命令)
# 注意:nvme-cli 不直接支持發送任意原始命令碼,這是一個概念性演示
# 實際測試可能需要編寫C語言程序或使用專用工具
# 這裡我們嘗試一個可能導致錯誤的參數組合,例如格式化一個不存在的命名空間ID
# 假設命名空間ID 999 不存在
echo "Trying to format a non-existent namespace ID 999..."
sudo nvme format $DEVICE -n 999 -s 0 2>&1 | tee nvme_invalid_format_log.txt
# 檢查命令的返回碼和日誌輸出
if grep -q "NVMe status: Invalid Namespace or Format"
nvme_invalid_format_log.txt; then
	echo "Test PASSED: SSD correctly reported 'Invalid Namespace or Format'error."
else
	echo "Test FAILED: SSD did not report expected error or crashed."
fi
# 嘗試讀取一個超出範圍的LBA (需要知道設備的實際容量)
# 假設設備容量為 976773168 LBAs (從 nvme id-ns 獲取)
# 嘗試讀取 LBA 976773169
# 注意:dd 命令會自動處理超出範圍的LBA,這裡只是概念性演示
# 實際測試可能需要更底層的NVMe讀寫工具
echo "Attempting to read an out-of-bounds LBA (conceptually)..."
# nvme read $DEVICE -s 976773169 -c 1 -z 512 -d /dev/null 2>&1 | tee nvme_oob_read_log.txt
# 由於nvme-cli的read命令需要文件作為輸出,這裡用dd模擬
# 假設我們知道設備的實際LBA數量為 MAX_LBA
# dd if=/dev/nvme0n1 of=/dev/null bs=512 count=1 skip=$((MAX_LBA + 1)) 2>&1 | tee nvme_oob_read_log.txt
# 為了演示,這裡使用一個更安全的nvme-cli命令,嘗試讀取一個不存在的塊
# nvme-cli 的 read/write 命令會自動檢查LBA範圍,所以很難直接注入無效LBA
# 真正的錯誤注入需要更底層的工具或韌體調試接口
# 清理
rm nvme_invalid_format_log.txt 2>/dev/null
echo "Invalid command injection test completed."