Data Lineage(資料血緣)

更新於 發佈於 閱讀時間約 3 分鐘

Data Lineage(資料血緣) 是指追蹤和記錄資料從來源到消費的整個流轉過程,包括資料的起源(來源)、經過的轉換、傳遞路徑以及最終的用途。它讓企業或使用者能夠清楚了解資料的流向、每個環節的處理細節,以及誰訪問和修改了資料,對於資料治理、合規審計、故障排查和品質管理非常關鍵。

在 AWS 生態系中,Data Lineage 主要應用和支援如下:

Amazon DataZone 提供 OpenLineage 相容的資料血緣功能,能自動捕捉並視覺化 lineage 事件,幫助追蹤資料從來源系統(如 Amazon Redshift、AWS Glue)經過的轉換至消費端的全流程。這使資料生產者和消費者都能查看資料資產的起源和關聯,並能分析影響範圍與流程歷史.

Amazon SageMaker(特別是次世代版本)也整合了自動資料血緣追蹤,記錄機器學習流程中資料、模型、訓練作業與部署之間的關係,方便追蹤和審計 ML 過程.

對於 Amazon DynamoDB,雖然自身不原生提供完全的資料血緣功能,但可以透過 DynamoDB Streams 捕捉時間序列的項目變更,結合外部追蹤工具實現部分血緣追踪.

多數 AWS 血緣追蹤方案會搭配 AWS Glue、Redshift、S3、Delta Lake、Iceberg 等資料來源 的血緣抽取,並用管理控制台或 API 進行 lineage 的開啟與管理.

總結:

Data Lineage 是追蹤資料從產生到使用全流程的技術,在 AWS 中主要由 Amazon DataZone 和 SageMaker 等服務支持自動化血緣管理,涵蓋資料來源、轉換和消費。對於 NoSQL 例如 DynamoDB,可以利用 DynamoDB Streams 和第三方工具來進行部分血緣追蹤。這種血緣資訊對於提升資料透明度、減少錯誤、加強資料治理和合規性至關重要。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
11會員
271內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師
2025/07/25
Provisioned Throughput 是 Amazon DynamoDB 中的一種容量管理模式,指的是您事先為資料表或全域二級索引(GSI)預先配置的讀取與寫入容量單位(RCUs 和 WCUs)。使用這種模式時,您必須指定每秒可接受的最大讀寫容量,系統會保證這些資源可用,但若使用量超過配置的
2025/07/25
Provisioned Throughput 是 Amazon DynamoDB 中的一種容量管理模式,指的是您事先為資料表或全域二級索引(GSI)預先配置的讀取與寫入容量單位(RCUs 和 WCUs)。使用這種模式時,您必須指定每秒可接受的最大讀寫容量,系統會保證這些資源可用,但若使用量超過配置的
2025/07/25
Prompt Hijacking(或稱為 Prompt Hacking)是一種針對大型語言模型(LLMs)的攻擊手法,透過精心設計的輸入或提示操控(prompt manipulation),使模型執行開發者未預期或不想要的動作。這與傳統軟體漏洞攻擊不同,因為它利用的是模型對輸入提示的敏感性和解讀機制
2025/07/25
Prompt Hijacking(或稱為 Prompt Hacking)是一種針對大型語言模型(LLMs)的攻擊手法,透過精心設計的輸入或提示操控(prompt manipulation),使模型執行開發者未預期或不想要的動作。這與傳統軟體漏洞攻擊不同,因為它利用的是模型對輸入提示的敏感性和解讀機制
2025/07/25
Kibana 是一款開源的資料視覺化和探索工具,專門用來與 Elasticsearch(及 Amazon OpenSearch Service)搭配使用。它提供用戶建立互動式儀表板,能夠視覺化搜尋結果和分析資料,方便即時數據探索與監控。 在 AWS 上,Kibana 主要作為 Amazon Ope
2025/07/25
Kibana 是一款開源的資料視覺化和探索工具,專門用來與 Elasticsearch(及 Amazon OpenSearch Service)搭配使用。它提供用戶建立互動式儀表板,能夠視覺化搜尋結果和分析資料,方便即時數據探索與監控。 在 AWS 上,Kibana 主要作為 Amazon Ope
看更多
你可能也想看
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
想學流量怎麼蹭嗎?讓我這位前任競選總幹事告訴你,不過要先修課程唷,我會給素材,你們要交作業,否則紙上談兵都無用,我有一些業配的業務可以讓各位練習,如何蹭流量還有管理經營。 流量密碼研究所 3000,每個月 https://vocus.cc/pay/salon/monthly/645345c1
Thumbnail
想學流量怎麼蹭嗎?讓我這位前任競選總幹事告訴你,不過要先修課程唷,我會給素材,你們要交作業,否則紙上談兵都無用,我有一些業配的業務可以讓各位練習,如何蹭流量還有管理經營。 流量密碼研究所 3000,每個月 https://vocus.cc/pay/salon/monthly/645345c1
Thumbnail
暨上篇文章與大家簡單介紹資訊種子的培訓內容後,這篇文章將與大家分享我自己在是如何加入資訊種子的,以及在這一年中的所見所聞與心得。不管是對資訊種子有興趣,或是仍在猶豫要不要加入資訊種子的人,千萬不要錯過了!
Thumbnail
暨上篇文章與大家簡單介紹資訊種子的培訓內容後,這篇文章將與大家分享我自己在是如何加入資訊種子的,以及在這一年中的所見所聞與心得。不管是對資訊種子有興趣,或是仍在猶豫要不要加入資訊種子的人,千萬不要錯過了!
Thumbnail
透過簡單的舉例,分享從原始資料到洞察發現的完整過程,包括資料清洗、特徵工程、探索性資料分析,以及如何根據分析結果提出具體建議。
Thumbnail
透過簡單的舉例,分享從原始資料到洞察發現的完整過程,包括資料清洗、特徵工程、探索性資料分析,以及如何根據分析結果提出具體建議。
Thumbnail
資訊架構就像是網站的地圖,讓用戶快速找到所需的資訊。好的資訊架構可提升使用者滿意度、強化 SEO、增進擴充性、達成商業目標。資訊架構可透過使用者訪談、卡片分析、競品分析、使用者測試等方法設計。在設計資訊架構時,需考量用戶的認知方式、目標客群、資訊分類等因素。定期檢驗資訊架構,才能確保用戶體驗。
Thumbnail
資訊架構就像是網站的地圖,讓用戶快速找到所需的資訊。好的資訊架構可提升使用者滿意度、強化 SEO、增進擴充性、達成商業目標。資訊架構可透過使用者訪談、卡片分析、競品分析、使用者測試等方法設計。在設計資訊架構時,需考量用戶的認知方式、目標客群、資訊分類等因素。定期檢驗資訊架構,才能確保用戶體驗。
Thumbnail
CSS 的繼承性是開發網頁樣式時的一個重要概念,它使得樣式設計更加靈活和高效,有助於提高程式碼的可讀性、一致性和可重用性,並加快開發速度,從而提供更好的開發體驗。
Thumbnail
CSS 的繼承性是開發網頁樣式時的一個重要概念,它使得樣式設計更加靈活和高效,有助於提高程式碼的可讀性、一致性和可重用性,並加快開發速度,從而提供更好的開發體驗。
Thumbnail
軟體系統的發展歷程大多相似,首重解決基本需求、提供操作介面,進而提升安全性、擴充功能、優化操作。
Thumbnail
軟體系統的發展歷程大多相似,首重解決基本需求、提供操作介面,進而提升安全性、擴充功能、優化操作。
Thumbnail
這邊統整了所有過去發表過關於 QUERY 函式的教學分享,希望可以方便你按照順序閱讀和練習。 QUERY 可以用來查詢、篩選、聚集、排序資料,還可以做張簡易的資料透視表,是我在 Google 試算表上做數據分析、製作報告、製作儀表板時最常用的函式之一,既方便又好用,誠心推薦!
Thumbnail
這邊統整了所有過去發表過關於 QUERY 函式的教學分享,希望可以方便你按照順序閱讀和練習。 QUERY 可以用來查詢、篩選、聚集、排序資料,還可以做張簡易的資料透視表,是我在 Google 試算表上做數據分析、製作報告、製作儀表板時最常用的函式之一,既方便又好用,誠心推薦!
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News