vocus logo

方格子 vocus

AWS Glue 三大元件

更新 發佈閱讀 3 分鐘

AWS Glue 的運作主要由這三個部分組成,考試必考:

A. Data Catalog (資料型錄)

  • 功能:這是一個中央中繼資料儲存庫 (Central Metadata Repository)。
  • 重點:它不存實際的資料(Data),只存關於資料的描述(Metadata),例如:資料表名稱、欄位名稱、資料類型、資料位置。
  • 整合:它是 Amazon Athena 和 Amazon Redshift Spectrum 查詢資料的基礎。沒有 Glue Data Catalog,Athena 就不知道 S3 裡有什麼檔案可以查。

B. Crawlers (爬蟲)

  • 功能:自動去掃描你的資料來源(例如 S3 Bucket 或 RDS)。
  • 作用:它會分析資料的結構(Schema),自動推斷欄位類型,然後把這些資訊寫入 Data Catalog。
  • 自動化:當你的 S3 裡多了新檔案或欄位變了,Crawler 可以自動偵測並更新 Schema。

C. ETL Jobs (任務)

  • 功能:實際執行資料轉換的地方。
  • 引擎:底層是 Apache Spark(分散式運算),支援 Python 或 Scala 語言。
  • 自動產碼:Glue 甚至可以自動幫你產生 ETL 的 Python 腳本,你不需要從零開始寫程式。

考試/實務 關鍵字 (Keywords)

  • Serverless ETL (無伺服器 ETL) →→ Glue。
  • Discover data schema automatically (自動發現資料結構) →→ Glue Crawler。
  • Central metadata repository (中央中繼資料庫) →→ Glue Data Catalog。
  • Run ETL jobs based on events (基於事件觸發 ETL) →→ Glue Triggers / Workflows。
  • Clean data without writing code (不寫程式清洗資料) →→ Glue DataBrew。
  • DynamicFrame (處理混亂資料的結構)。

總結

AWS Glue 是 AWS 上做資料整合的「瑞士刀」,最核心的流程就是:Crawler 掃描 →→ 建置 Catalog →→ 執行 ETL Job →→ 產出乾淨資料

留言
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
44會員
572內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他:富邦美術館志工
2025/12/03
AWS CloudShell 是一個 「基於瀏覽器的 Shell 環境」。 一句話總結:它讓你不需要在自己的電腦上安裝任何東西,直接打開瀏覽器就能使用 AWS CLI 來下指令控制 AWS 資源,而且已經自動幫你登入好了。 對於不想在本地端電腦配置 Access Key、或者臨時借用別人電腦操作
2025/12/03
AWS CloudShell 是一個 「基於瀏覽器的 Shell 環境」。 一句話總結:它讓你不需要在自己的電腦上安裝任何東西,直接打開瀏覽器就能使用 AWS CLI 來下指令控制 AWS 資源,而且已經自動幫你登入好了。 對於不想在本地端電腦配置 Access Key、或者臨時借用別人電腦操作
2025/12/03
AWS Migration Hub 是 AWS 提供的 「雲端遷移中央指揮中心」。 一句話總結:它本身不負責搬運資料,而是一個「儀表板 (Dashboard)」,用來集中管理、追蹤並監控所有遷移任務的進度(無論是使用 AWS 原生工具還是第三方合作夥伴的工具)。 對於大型企業遷移(可能有數百台伺
Thumbnail
2025/12/03
AWS Migration Hub 是 AWS 提供的 「雲端遷移中央指揮中心」。 一句話總結:它本身不負責搬運資料,而是一個「儀表板 (Dashboard)」,用來集中管理、追蹤並監控所有遷移任務的進度(無論是使用 AWS 原生工具還是第三方合作夥伴的工具)。 對於大型企業遷移(可能有數百台伺
Thumbnail
看更多
你可能也想看
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
1.首先 這是 “AWS 上的工作負載發現” 的解決方案,我嘗試了一下,覺得很方便,所以介紹一下~ https://aws.amazon.com/tw/solutions/implementations/workload-discovery-on-aws/ 2. 部署 官方提供 CloudF
Thumbnail
1.首先 這是 “AWS 上的工作負載發現” 的解決方案,我嘗試了一下,覺得很方便,所以介紹一下~ https://aws.amazon.com/tw/solutions/implementations/workload-discovery-on-aws/ 2. 部署 官方提供 CloudF
Thumbnail
由於客戶需要透過  Cost Explorer 來監控 ECS Fargate tasks 成本,ECS 設置需要的 Tag 標籤, AWS Billing (Cost allocation tags)啟用 Tag 後,還是沒出現。 原因是,ECS Cluster 本生沒有產生費用,故才未
Thumbnail
由於客戶需要透過  Cost Explorer 來監控 ECS Fargate tasks 成本,ECS 設置需要的 Tag 標籤, AWS Billing (Cost allocation tags)啟用 Tag 後,還是沒出現。 原因是,ECS Cluster 本生沒有產生費用,故才未
Thumbnail
以下是限制 S3 bucket 訪問 HTTPS 的方法 測試 S3 存儲桶訪問 S3 bucket 通常允許 HTTP 和 HTTPS 訪問 AWS CLI 預設通常使用 HTTPS 向 AWS 服務發送請求 https://docs.aws.amazon.com/zh_tw/cli/l
Thumbnail
以下是限制 S3 bucket 訪問 HTTPS 的方法 測試 S3 存儲桶訪問 S3 bucket 通常允許 HTTP 和 HTTPS 訪問 AWS CLI 預設通常使用 HTTPS 向 AWS 服務發送請求 https://docs.aws.amazon.com/zh_tw/cli/l
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
Fleet Manager (AWS Systems Manager 的功能) 是統一的使用者界面 (UI) 體驗,可助您遠端管理在 AWS 或內部部署上執行的受管節點 利用 Fleet Manager,您可以從單一主控台檢視整個伺服器機群的運作狀態和效能狀態 Fleet Manager 有哪些
Thumbnail
Fleet Manager (AWS Systems Manager 的功能) 是統一的使用者界面 (UI) 體驗,可助您遠端管理在 AWS 或內部部署上執行的受管節點 利用 Fleet Manager,您可以從單一主控台檢視整個伺服器機群的運作狀態和效能狀態 Fleet Manager 有哪些
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
如何查詢 CloudTrail Event history 使用 Event name 篩選 RequestSpotFleet CloudTrail Event history 使用 Resource name 篩選,該 Request ID (提提知道ID) 使用上述查詢,目的是為了
Thumbnail
如何查詢 CloudTrail Event history 使用 Event name 篩選 RequestSpotFleet CloudTrail Event history 使用 Resource name 篩選,該 Request ID (提提知道ID) 使用上述查詢,目的是為了
Thumbnail
有這一篇原因是工作上,建立 OU 時,會自動新增額外的 FullAWSAccess 規則,但原本就會有預設Root OU繼承的FullAWSAccess,等於會有兩組一樣的規則,故所以詢問了AWS Support。 先謝謝 AWS 技術支援工程師 George 細心說明~ SCP很重要的
Thumbnail
有這一篇原因是工作上,建立 OU 時,會自動新增額外的 FullAWSAccess 規則,但原本就會有預設Root OU繼承的FullAWSAccess,等於會有兩組一樣的規則,故所以詢問了AWS Support。 先謝謝 AWS 技術支援工程師 George 細心說明~ SCP很重要的
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
可以分析源代碼並檢查在遷移到 AWS Graviton 時需要更改的過時運行library 優化 aws 成本的方法之一是遷移到並採用具有高性價比的AWS Graviton 推薦使用AWS Graviton,從可持續性的角度來看,它有很好的表現 但有需要注意的地方: 不適用於所有操作系統和實
Thumbnail
可以分析源代碼並檢查在遷移到 AWS Graviton 時需要更改的過時運行library 優化 aws 成本的方法之一是遷移到並採用具有高性價比的AWS Graviton 推薦使用AWS Graviton,從可持續性的角度來看,它有很好的表現 但有需要注意的地方: 不適用於所有操作系統和實
Thumbnail
每個 AWS 帳戶所對應的Availability Zones會有所不同,查看方式可以至EC2 Console 中的EC2 Dashboard。
Thumbnail
每個 AWS 帳戶所對應的Availability Zones會有所不同,查看方式可以至EC2 Console 中的EC2 Dashboard。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News