分散式文件系統是一種將文件資料分散儲存到多台電腦(伺服器或節點)上的技術,常見代表如 HDFS(Hadoop Distributed File System)。這類系統特點如下:
HDFS 原理與架構
- 文件分割與分散存儲:大檔案會被分割為多個資料區塊(Block),每個區塊分散儲存於不同伺服器,提升存取效率與擴充性。
- 冗餘備份機制:每個資料區塊會預設保存多個副本(通常三份),分散在不同節點,即使部分節點故障也能保證資料完整性與高可用性。
- 主要組件:
- NameNode 傳送檔案與區塊分配管理,負責文件命名空間與元資料。
- DataNode實際存放數據區塊,負責資料的讀寫存取。
- Secondary NameNode輔助管理元資料與合併記錄,不是主節點備份。
- 高並行吞吐量:設計上適合一次寫入、多次讀取,利於大數據分析系統,在同一時間多任務平行處理,提高資料運算效率。
優勢與限制
- 可用性高:容錯、多重副本設計讓系統能自動應對硬體失效。
- 廉價擴展:可用普通硬體擴充儲存容量,節省成本。
- 支援超大檔案存儲:能儲存TB~PB等級海量檔案。
- 限制:不適合作業頻繁更新的小檔案,不支援高同步、即時寫入等需求,主要設計用於批次分析。
分散式文件系統(如HDFS)能以低成本、高效能且具備容錯能力分散儲存、管理大量檔案,是大數據與雲端運算核心架構之一。