Data Lineage(資料血緣) 是指追蹤和記錄資料從來源到消費的整個流轉過程,包括資料的起源(來源)、經過的轉換、傳遞路徑以及最終的用途。它讓企業或使用者能夠清楚了解資料的流向、每個環節的處理細節,以及誰訪問和修改了資料,對於資料治理、合規審計、故障排查和品質管理非常關鍵。
在 AWS 生態系中,Data Lineage 主要應用和支援如下:
• Amazon DataZone 提供 OpenLineage 相容的資料血緣功能,能自動捕捉並視覺化 lineage 事件,幫助追蹤資料從來源系統(如 Amazon Redshift、AWS Glue)經過的轉換至消費端的全流程。這使資料生產者和消費者都能查看資料資產的起源和關聯,並能分析影響範圍與流程歷史.• Amazon SageMaker(特別是次世代版本)也整合了自動資料血緣追蹤,記錄機器學習流程中資料、模型、訓練作業與部署之間的關係,方便追蹤和審計 ML 過程.
• 對於 Amazon DynamoDB,雖然自身不原生提供完全的資料血緣功能,但可以透過 DynamoDB Streams 捕捉時間序列的項目變更,結合外部追蹤工具實現部分血緣追踪.
• 多數 AWS 血緣追蹤方案會搭配 AWS Glue、Redshift、S3、Delta Lake、Iceberg 等資料來源 的血緣抽取,並用管理控制台或 API 進行 lineage 的開啟與管理.
總結:
Data Lineage 是追蹤資料從產生到使用全流程的技術,在 AWS 中主要由 Amazon DataZone 和 SageMaker 等服務支持自動化血緣管理,涵蓋資料來源、轉換和消費。對於 NoSQL 例如 DynamoDB,可以利用 DynamoDB Streams 和第三方工具來進行部分血緣追蹤。這種血緣資訊對於提升資料透明度、減少錯誤、加強資料治理和合規性至關重要。