ETL架構中的S3 Data Lake 與 Glue Job 問題(工作日常)

西尼亞ming

更新於 2024/10/02發佈於 2024/10/02閱讀時間約 2 分鐘

我想問一般來說在做ETL架構是

S3 Data Lake > Crawlers > Data Catalog > Athena

那我可以改成 S3 Data Lake > Glue job > Athena 嗎？

在 S3 Data Lake > Crawlers > Data Catalog > Athena 這個作業流程中：

- S3 負責存儲數據

- Crawler 負責分析 S3 中數據的 Schema

- Data Catalog 負責存儲 Crawler 分析出的數據 Schema

- Athena 負責根據 Data Catalog 中保存的數據 Schema 對數據進行查詢

如果您希望將流程變更為 s3 Data Lake > Glue job > Athena，那麼您需要確保您已經知道 S3 中保存的數據的 Schema 才可以在 Glue Job 中進行處理。Glue Job 本質上是 spark 程序，其主要作用是對數據進行轉換，清洗等操作，與 Crawler 所提供的功能並不相同，因此無法用 Glue Job 替換 Crawler 這個部分。在使用 Glue Job 的情況下通常的作業流程會是如下所示：

------------------------------------------------------

s3 Data Lake > Crawlers > Data Catalog > Glue Job

------------------------------------------------------

#AWS

西尼亞ming的沙龍

16會員

80內容數

留言

留言分享你的想法！

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

西尼亞ming的沙龍的其他內容

在一個組織內有多少帳戶有資格獲得 Lambda 的免費套餐？（工作日常）

在一個組織內有多少帳戶有資格獲得 Lambda 的免費套餐？

RDS Storage autoscaling 的疑問與解答（工作日常）

在使用 AWS RDS 的資料庫服務時，許多用戶對於存儲空間的自動擴展感到困惑。本文將針對 RDS Storage autoscaling 的功能進行解説，尤其是在資料庫儲存空間從100GiB擴展至150GiB後，是否有能力減少容量的問題進行討論。

#空間 #限制 #執行

Switching IAM role issues（工作日常）

我想做到 Account A assume role 到 Account B，然後 Account B Role assume role 到 Account C。在測試的時候發現在控制台做 IAM role chaining 但無法完成，會遇到錯誤訊息且錯誤訊息沒有明確指出原因。深入調查

Amazon Macie 是否可進行去識別化(工作日常)

我理解您想知道 Macie 是否能夠進行去識別化，目前 Macie 不提供此功能。但是，透過與 EventBridge[1] 集成，您可以設計自訂工作流程以與 Lambda 函數配合使用來處理 Macie 結果，可以在 AWS 部落格 [2] 上找到範例。您也可以看看下面的其他解決方案

#AWS

AWS ELB 是否支持 CORS？（工作日常）

ALB 本身並非原生支援 CORS，因此需要後端應用程式新增 CORS 標頭。出於安全原因，瀏覽器限制從腳本發起的跨來源 HTTP 請求。預設情況下，XMLHttpRequest 遵循同源策略。這意味著使用這些 API 的 Web 應用程式只能從載入應用程式的相同來源請求資源，除非來自其他來源

#AWS

加入 AWS Organizations 後自動執行CloudFormation StackSets

透過充分利用 AWS Organizations 和 CloudFormation StackSets，您可以更好地實現企業級的雲端管理與控制，為業務的持續發展提供穩固的技術支撐。

#AWS

在一個組織內有多少帳戶有資格獲得 Lambda 的免費套餐？（工作日常）

在一個組織內有多少帳戶有資格獲得 Lambda 的免費套餐？

RDS Storage autoscaling 的疑問與解答（工作日常）

#空間 #限制 #執行

Switching IAM role issues（工作日常）

Amazon Macie 是否可進行去識別化(工作日常)

#AWS

AWS ELB 是否支持 CORS？（工作日常）

#AWS

加入 AWS Organizations 後自動執行CloudFormation StackSets

透過充分利用 AWS Organizations 和 CloudFormation StackSets，您可以更好地實現企業級的雲端管理與控制，為業務的持續發展提供穩固的技術支撐。

你可能也想看

※ 為什麼需要 Subquery？當⼀個任務需要多個 Query 完成任務，可以使⽤ Subquery 把多個 Query 合併成⼀個 Query。當我們在進行SQL查詢時，每次查詢都需要在Web Server和資料庫之間來回傳遞資料。這個過程會產生網路延遲，特別是當兩者之間的物理距離較遠時

西尼亞ming的沙龍

2024/07/04

估算 DataSync Agent 部署在 EC2 時所產生的流量費用

AWS DataSync 是一種線上資料移動和探索服務，可簡化並加速向 AWS 的資料遷移，以及在內部部署儲存、邊緣節點、其他雲端和 AWS 儲存服務移入和移出資料[1]。在某些架構上會，使用該服務會需要安裝 DataSync Agent 來傳輸檔案您需要 DataSync Agen

※ 生產者和消費者模式定義：生產者和消費者在同一時間內共同存取某一個資料空間。生產者負責生成數據並將其放入共享空間，消費者負責從共享空間中取走數據進行處理。兩者之間互不相干，也不須互相知道對方的存在。共同存取資料空間：生產者和消費者共享同一個資料空間。這個空間通常是緩衝區或隊列，用於在它

linct的沙龍

2024/06/07

檔案操作處理工具

工具功能 (1) 彈性任意查詢檔案，如對來源目錄設定，檔案修改日期設定，檔名特定字串或副檔名設定後，自動查出明細，並可展開至各階子目錄處理 (2) 依查詢後結果，可產出 LIST ，提供查詢結果之確認，再依此對檔案作複 (3) 可對檔案作移動，複製至別處，刪除處理，使電腦可騰出硬碟空間

#windows #cmd #bat

愛看電視的小上進的沙龍

2024/01/24

在 google Colab 讀取雲端硬碟中的資料

教大家如何使用 google colab 讀取雲端硬碟中的資料

第一份正職工作在iot公司擔任後端工程師，一上工就使用先前沒用過的php/laravel，也馬上負責公司產品的架構規劃，先前資料庫只有簡單記載使用者跟使用者的一些設定，很多地方有資料不一致的問題，產品內容還有很多實體的關係沒有被定義進資料庫都是這次改版我要做的事情。改版納入公司、機器

※ 基本操作：SQL 語法，SELECT, WHERE, CREATE, UPDATE, DELETE。 SELECT：從資料庫中或資料表中指定要選擇的欄位中取得資料，稱之為查詢 (query)。 ※ 語法：要由兩部分構成，第一部分是要 "拿什麼" 資料 (若有多項用逗號隔開)；第二部分則為

JHIHLEI LIN的沙龍

2024/01/09

AWS Lambda切分不同環境

在沒有分環境之前，每一隻lambda只有一個code console給所有人一起編輯，開發好了就deploy，根據設定的trigger觸發執行。現在我們希望能夠在code console開發，然後deploy到不同的stage，目標是不同stage的api gateway能夠調用該lambda的

#AWS #lambda #apigateway

Tim Bai的沙龍

2024/01/09

Docker 之 Docker 架構

前言上次我們針對 Docker 這樣容器化技術做了一點介紹，今天我們要來講解 Docker 架構，你是否發現在每次程式上伺服器的流程很麻煩呢 ? 是否發現你寫的程式在別的作業系統不能用呢 ? 如果你遇到這些問題，Docker 都可以幫助你解決這些問題 Docker 架構在 Docker 這

估算 DataSync Agent 部署在 EC2 時所產生的流量費用

在 google Colab 讀取雲端硬碟中的資料

教大家如何使用 google colab 讀取雲端硬碟中的資料

#AWS #lambda #apigateway