2022-05-28|閱讀時間 ‧ 約 3 分鐘

Airflow vs CDAP 應用場景與差異

    amp-img-attr

    之前工作需要接觸到Airflow,案子需要串接大量數據流,做自動化資源調度,將調度處理後的資料利用Superset進行資料視覺化。

    另外本身有在研究GCP Data Pipeline的設計與建置,在GCP的service有一項Data Fusion,Data Fusion 是GCP service名稱,實際名稱為CDAP,也是google開源的無代碼大數據工具,雖說是NO-CODE,但是在運作Spark時,也是要code準備好,輸入到他的block中做執行。

    開發人員將Airflow描述為“ Airbnb 以編程方式創作、調度和監控數據管道的平台”。使用 Airflow 將工作流創作為任務的有向無環圖 (DAG)。

    Airflow 調度程序在遵循指定依賴項的同時在一組工作人員上執行您的任務。豐富的命令行實用程序使在 DAG 上執行複雜的手術變得輕而易舉。

    豐富的用戶界面使可視化生產中運行的管道、監控進度和在需要時解決問題變得容易。

    另一方面,CDAP被詳細描述為“面向 Hadoop 數據和應用程序的開源虛擬化平台””. Cask Data Application Platform (CDAP) 是面向 Hadoop 生態系統的開源應用程序開發平台,為開發人員提供數據和應用程序虛擬化以加速應用程序開發,解決更廣泛的實時和批處理用例,並將應用程序部署到在滿足企業要求的同時進行生產。

    Airflow 可以歸類為“工作流管理器”類別中的工具,而 CDAP 則歸類為“大數據工具”

    Airflow 提供的一些功能包括:

    • 動態:氣流管道是配置即代碼(Python),允許動態管道生成。這允許編寫動態實例化管道的代碼。
    • 可擴展:輕鬆定義您自己的運算符、執行器並擴展庫,使其適合您環境的抽象級別。
    • 優雅:氣流管道簡潔明了。使用強大的 Jinja 模板引擎在 Airflow 的核心中構建腳本參數化。

    另一方面,CDAP 提供以下關鍵特性:

    • 用於數據攝取的串流
    • 用於常見大數據訪問模式的可重用庫
    • 可用於多個應用程序和不同範例的數據

    CDAP

    homepage

    Wrangle 設定資料源 下圖為Bigquery的public dataset

    從本地端獲取file

    Studio 拖拉式 建構ETL流程

    上圖例子為

    1.從AWS S3 擷取資料

    2.進行csv 解析數據轉換

    3.將數據載入biguery進行存儲

    4.使用bigquery進行查詢

    分享至
    成為作者繼續創作的動力吧!
    © 2024 vocus All rights reserved.