AWS Lake Formation 是一項 Amazon Web Services (AWS) 提供的全受管服務,旨在幫助您在數天內,而不是數個月內,輕鬆地設定、保護和管理資料湖 (data lake)。
資料湖是一個集中式、經過整理和安全的儲存庫,可以儲存您所有的資料,無論是原始形式還是準備用於分析的資料。它能幫助您打破資料孤島,結合不同類型的分析來獲得洞察力並指導更好的商業決策。
主要功能和優勢:
- 快速建立資料湖:
- Lake Formation 簡化了建立資料湖的複雜手動任務。您只需指定資料來源以及要套用的資料存取和安全策略。
- 它會自動爬取(crawl)您的資料來源(例如 Amazon S3、關聯式資料庫、NoSQL 資料庫),將資料移動到您的新 Amazon S3 資料湖中,並進行清理和分類。
- Lake Formation 還能將資料優化為 Apache Parquet 和 ORC 等格式,以提高分析效率,並內建機器學習功能來去重複和查找匹配記錄,提高資料品質。
- 簡化安全管理:
- 這是 Lake Formation 的核心優勢。您可以集中定義和強制執行資料湖的安全、治理和稽核策略。
- 它提供自己的權限模型,與 AWS IAM (Identity and Access Management) 權限模型協同工作,實現精細粒度的存取控制。您可以像管理關聯式資料庫一樣,以簡單的「授予」或「撤銷」機制,在資料庫、資料表、欄位、列甚至是單元格級別來限制對資料的存取。
- 這些策略會跨多個 AWS 分析和機器學習服務一致地執行,包括 Amazon Athena、Amazon QuickSight、Amazon Redshift Spectrum、Amazon EMR 和 AWS Glue 等。
- 促進資料發現和共用:
- Lake Formation 能夠建立一個資料目錄 (Data Catalog),描述可用的不同資料集以及哪些使用者群組可以存取每個資料集。
- 這使得使用者更容易找到正確的資料集進行分析,並能安全地在組織內部和外部(跨 AWS 帳戶或 AWS Organizations)共用資料,同時保持精細的存取控制。
- 自動化 ETL (萃取、轉換、載入) 流程:
- 除了資料移動和分類,Lake Formation 還可以協助進行資料轉換,例如重寫日期格式以確保一致性。
典型使用場景:
- 構建安全且合規的資料湖: 需要嚴格控制資料存取並滿足法規要求(如 GDPR、HIPAA)的企業。
- 整合多源資料進行分析: 將來自不同資料庫、應用程式和雲端儲存的資料匯集到一個地方進行統一分析。
- 自助式資料分析: 讓資料分析師和資料科學家能夠安全、快速地存取和查詢所需的資料,無需等待 IT 或資料工程師的協助。
- 支援機器學習專案: 為機器學習模型提供一個統一、安全且易於存取的資料來源。