Amazon EMR(Elastic MapReduce)

更新 發佈閱讀 4 分鐘

Amazon EMR (Elastic MapReduce) 是一項 Amazon Web Services (AWS) 提供的全受管巨量資料 (Big Data) 處理服務。它使得在雲端上輕鬆、快速且經濟高效地運行和擴展 Apache Hadoop、Apache Spark 以及其他巨量資料框架(如 Hive、Presto、Flink 等)變得可能。

簡單來說,如果你有大量的資料需要處理和分析,並且想使用開源的巨量資料工具鏈,但又不想管理底層的伺服器叢集,Amazon EMR 就是為你設計的服務。

主要特點:

  1. 全受管服務:
    • AWS 負責所有底層基礎設施的管理,包括伺服器的佈建、組態、監控、修補和擴展。你無需擔心硬體故障、軟體安裝或叢集維護。
    • 這大大簡化了巨量資料叢集的部署和操作。
  2. 支持多種開源巨量資料框架:
    • EMR 不僅支援 Apache Hadoop 和 Apache Spark (最常用的巨量資料處理框架),還支援: Apache Hive: 資料倉儲軟體,允許使用 SQL 查詢資料。Apache Presto (Trino): 分散式 SQL 查詢引擎,用於對大型資料集進行快速分析。Apache Flink: 串流處理框架,用於即時資料分析。Apache HBase: 分散式、非關聯式資料庫。Apache ZooKeeper: 用於分散式應用程式的協調服務。Hue: Web 介面的 Hadoop 應用程式管理器。Ganglia: 監控系統。
    • 這讓用戶可以根據其具體的分析需求選擇最合適的工具。
  3. 彈性擴展 (Elastic Scaling):
    • EMR 叢集可以根據你的工作負載需求彈性擴展或縮減。你可以根據需要增加或減少節點,以優化成本和效能。
    • 支援手動擴展、自動擴展,甚至可以在工作完成後自動終止叢集,節省成本。
  4. 成本效益:
    • 由於其彈性擴展和按使用量付費的模式,EMR 可以在處理巨量資料時提供較高的成本效益。
    • 你可以利用 Spot Instances 來進一步降低運算成本,特別是對於容錯的工作負載。
    • 支援單次使用(按小時計費)或長期保留的計算容量。
  5. 與其他 AWS 服務整合:
    • EMR 與其他 AWS 服務無縫整合,例如: Amazon S3: 作為資料湖,提供可擴展且耐用的資料儲存,EMR 可以直接從 S3 讀取和寫入資料。Amazon EC2: EMR 叢集運行在 EC2 實例上。Amazon CloudWatch: 用於監控 EMR 叢集的指標和日誌。AWS Glue Data Catalog: 作為 EMR 的統一中繼資料儲存庫。AWS Lake Formation: 用於資料湖的安全和治理。

典型使用案例:

  • 巨量資料處理與轉換 (ETL): 對大量原始數據進行提取、轉換和載入,以用於數據倉儲或分析。
  • 日誌分析: 分析來自應用程式、網站和伺服器的大量日誌數據,以獲取營運洞察。
  • 點擊流分析: 分析網站使用者的點擊行為,以優化用戶體驗和商業策略。
  • 機器學習: 使用 Spark MLlib 等框架在大型數據集上訓練機器學習模型。
  • 基因組學和科學模擬: 處理和分析龐大的科學數據。
  • 互動式分析: 使用 Presto 或 Spark 進行即時或近即時的數據查詢。

總之,Amazon EMR 是一個強大的、全受管的巨量資料處理平台,它使企業能夠輕鬆地利用流行的開源框架(如 Hadoop 和 Spark)來處理、分析和轉換大規模資料集,而無需負擔底層基礎設施的管理負擔。

留言
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
39會員
571內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 初級+中級(數據分析) AWS Certified AI Practitioner (AIF-C01) 其他:富邦美術館志工
2025/06/18
Amazon Bedrock 是一個全受管的服務,它提供了一系列基礎模型 (Foundation Models, FMs) 供開發者使用,其中就包含了 Amazon 自家開發的 Amazon Titan 系列模型。 Amazon Titan FM (Foundation Models) 是 AWS
2025/06/18
Amazon Bedrock 是一個全受管的服務,它提供了一系列基礎模型 (Foundation Models, FMs) 供開發者使用,其中就包含了 Amazon 自家開發的 Amazon Titan 系列模型。 Amazon Titan FM (Foundation Models) 是 AWS
2025/06/18
AWS Data Exchange 是一項 Amazon Web Services (AWS) 提供的全受管服務,它旨在幫助客戶(資料訂閱者)輕鬆尋找、訂閱和使用第三方資料產品,同時也幫助資料提供者安全地將其資料產品提供給客戶。 簡單來說,它就像一個資料市集,讓資料的買賣雙方能夠方便地在 AWS
2025/06/18
AWS Data Exchange 是一項 Amazon Web Services (AWS) 提供的全受管服務,它旨在幫助客戶(資料訂閱者)輕鬆尋找、訂閱和使用第三方資料產品,同時也幫助資料提供者安全地將其資料產品提供給客戶。 簡單來說,它就像一個資料市集,讓資料的買賣雙方能夠方便地在 AWS
2025/06/18
ISV 是 Independent Software Vendor (獨立軟體供應商) 的縮寫。 它指的是那些專門開發、銷售和維護其自有軟體產品或解決方案的公司。 這些軟體產品通常是為特定目的或特定產業設計的,並在各種硬體平台、作業系統或雲端服務上運行。 ISV 的核心特點: 獨立性: ISV
2025/06/18
ISV 是 Independent Software Vendor (獨立軟體供應商) 的縮寫。 它指的是那些專門開發、銷售和維護其自有軟體產品或解決方案的公司。 這些軟體產品通常是為特定目的或特定產業設計的,並在各種硬體平台、作業系統或雲端服務上運行。 ISV 的核心特點: 獨立性: ISV
看更多
你可能也想看
Thumbnail
透過充分利用 AWS Organizations 和 CloudFormation StackSets,您可以更好地實現企業級的雲端管理與控制,為業務的持續發展提供穩固的技術支撐。
Thumbnail
透過充分利用 AWS Organizations 和 CloudFormation StackSets,您可以更好地實現企業級的雲端管理與控制,為業務的持續發展提供穩固的技術支撐。
Thumbnail
疫情世代後,企業在思考的已經不是要不要上雲,而是哪些服務或內容可以上雲,透過混合雲的形式,搭配公司的策略達到靈活且彈性的最佳效益。 而既然要能達到最佳效益,選擇適合公司環境的雲端環境,對於現代企業來說非常重要,這篇文章將與大家分享AWS、GCP、Azure三大公有雲的特點與優勢。
Thumbnail
疫情世代後,企業在思考的已經不是要不要上雲,而是哪些服務或內容可以上雲,透過混合雲的形式,搭配公司的策略達到靈活且彈性的最佳效益。 而既然要能達到最佳效益,選擇適合公司環境的雲端環境,對於現代企業來說非常重要,這篇文章將與大家分享AWS、GCP、Azure三大公有雲的特點與優勢。
Thumbnail
企業資源規劃 (ERP) 的格局正在發生重大轉變。 傳統的本地 ERP 系統雖然強大,但可能不夠靈活且維護成本高。 隨著組織在不斷發展的數位時代追求敏捷性和可擴展性,基於雲端的 ERP 解決方案正在成為首選。 基於雲端的 ERP 的興起 基於雲端的 ERP 系統在遠端伺服器網路上運行,用戶可以透
Thumbnail
企業資源規劃 (ERP) 的格局正在發生重大轉變。 傳統的本地 ERP 系統雖然強大,但可能不夠靈活且維護成本高。 隨著組織在不斷發展的數位時代追求敏捷性和可擴展性,基於雲端的 ERP 解決方案正在成為首選。 基於雲端的 ERP 的興起 基於雲端的 ERP 系統在遠端伺服器網路上運行,用戶可以透
Thumbnail
本篇使用 AWS Lambda 結合 Amazon Bedrock 和 Claude 3 來分析儲存在 Amazon S3 中的圖像的示範
Thumbnail
本篇使用 AWS Lambda 結合 Amazon Bedrock 和 Claude 3 來分析儲存在 Amazon S3 中的圖像的示範
Thumbnail
實踐AWS中使用Lambda來負責登入簽核及與OpenAI API溝通,並利用S3容器託管一個靜態網頁做為前端
Thumbnail
實踐AWS中使用Lambda來負責登入簽核及與OpenAI API溝通,並利用S3容器託管一個靜態網頁做為前端
Thumbnail
實驗目的:Lambda@Edge (L@E) 讓 CLoudFront (CF) 回源時,自動選擇較近的 S3 region 回源
Thumbnail
實驗目的:Lambda@Edge (L@E) 讓 CLoudFront (CF) 回源時,自動選擇較近的 S3 region 回源
Thumbnail
AWS CloudFront + S3 遇到 CORS 解決方式
Thumbnail
AWS CloudFront + S3 遇到 CORS 解決方式
Thumbnail
Kafka是一個先進的分佈式流處理平臺,具有高吞吐量、可擴展性、容錯性和低延遲特性,提供瞭解耦、非同步和削峰特點。本文介紹了Kafka的通訊模式、適合的應用場景和未來發展趨勢,旨在幫助使用者更好地理解和應用Kafka。
Thumbnail
Kafka是一個先進的分佈式流處理平臺,具有高吞吐量、可擴展性、容錯性和低延遲特性,提供瞭解耦、非同步和削峰特點。本文介紹了Kafka的通訊模式、適合的應用場景和未來發展趨勢,旨在幫助使用者更好地理解和應用Kafka。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News