Data Lineage（資料血緣）

更新於 2025/08/08發佈於 2025/07/25閱讀時間約 3 分鐘

Data Lineage（資料血緣）是指追蹤和記錄資料從來源到消費的整個流轉過程，包括資料的起源（來源）、經過的轉換、傳遞路徑以及最終的用途。它讓企業或使用者能夠清楚了解資料的流向、每個環節的處理細節，以及誰訪問和修改了資料，對於資料治理、合規審計、故障排查和品質管理非常關鍵。

在 AWS 生態系中，Data Lineage 主要應用和支援如下：

• Amazon DataZone 提供 OpenLineage 相容的資料血緣功能，能自動捕捉並視覺化 lineage 事件，幫助追蹤資料從來源系統（如 Amazon Redshift、AWS Glue）經過的轉換至消費端的全流程。這使資料生產者和消費者都能查看資料資產的起源和關聯，並能分析影響範圍與流程歷史.

• Amazon SageMaker（特別是次世代版本）也整合了自動資料血緣追蹤，記錄機器學習流程中資料、模型、訓練作業與部署之間的關係，方便追蹤和審計 ML 過程.

• 對於 Amazon DynamoDB，雖然自身不原生提供完全的資料血緣功能，但可以透過 DynamoDB Streams 捕捉時間序列的項目變更，結合外部追蹤工具實現部分血緣追踪.

• 多數 AWS 血緣追蹤方案會搭配 AWS Glue、Redshift、S3、Delta Lake、Iceberg 等資料來源的血緣抽取，並用管理控制台或 API 進行 lineage 的開啟與管理.

總結：

Data Lineage 是追蹤資料從產生到使用全流程的技術，在 AWS 中主要由 Amazon DataZone 和 SageMaker 等服務支持自動化血緣管理，涵蓋資料來源、轉換和消費。對於 NoSQL 例如 DynamoDB，可以利用 DynamoDB Streams 和第三方工具來進行部分血緣追蹤。這種血緣資訊對於提升資料透明度、減少錯誤、加強資料治理和合規性至關重要。

含 AI 應用內容

郝信華 iPAS AI應用規劃師學習筆記AWS AIF-C01

留言

留言分享你的想法！

郝信華 iPAS AI應用規劃師學習筆記

17會員

437內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/07/25

Provisioned Throughput

Provisioned Throughput 是 Amazon DynamoDB 中的一種容量管理模式，指的是您事先為資料表或全域二級索引（GSI）預先配置的讀取與寫入容量單位（RCUs 和 WCUs）。使用這種模式時，您必須指定每秒可接受的最大讀寫容量，系統會保證這些資源可用，但若使用量超過配置的

2025/07/25

Provisioned Throughput

2025/07/25

Prompt Hijacking（或稱為 Prompt Hacking）

Prompt Hijacking（或稱為 Prompt Hacking）是一種針對大型語言模型（LLMs）的攻擊手法，透過精心設計的輸入或提示操控（prompt manipulation），使模型執行開發者未預期或不想要的動作。這與傳統軟體漏洞攻擊不同，因為它利用的是模型對輸入提示的敏感性和解讀機制

2025/07/25

Prompt Hijacking（或稱為 Prompt Hacking）

2025/07/25

Kibana

Kibana 是一款開源的資料視覺化和探索工具，專門用來與 Elasticsearch（及 Amazon OpenSearch Service）搭配使用。它提供用戶建立互動式儀表板，能夠視覺化搜尋結果和分析資料，方便即時數據探索與監控。在 AWS 上，Kibana 主要作為 Amazon Ope

2025/07/25

Kibana

看更多

你可能也想看