之前工作需要接觸到Airflow,案子需要串接大量數據流,做自動化資源調度,將調度處理後的資料利用Superset進行資料視覺化。
另外本身有在研究GCP Data Pipeline的設計與建置,在GCP的service有一項Data Fusion,Data Fusion 是GCP service名稱,實際名稱為CDAP,也是google開源的無代碼大數據工具,雖說是NO-CODE,但是在運作Spark時,也是要code準備好,輸入到他的block中做執行。
開發人員將Airflow描述為“ Airbnb 以編程方式創作、調度和監控數據管道的平台”。使用 Airflow 將工作流創作為任務的有向無環圖 (DAG)。
Airflow 調度程序在遵循指定依賴項的同時在一組工作人員上執行您的任務。豐富的命令行實用程序使在 DAG 上執行複雜的手術變得輕而易舉。
豐富的用戶界面使可視化生產中運行的管道、監控進度和在需要時解決問題變得容易。
另一方面,CDAP被詳細描述為“面向 Hadoop 數據和應用程序的開源虛擬化平台””. Cask Data Application Platform (CDAP) 是面向 Hadoop 生態系統的開源應用程序開發平台,為開發人員提供數據和應用程序虛擬化以加速應用程序開發,解決更廣泛的實時和批處理用例,並將應用程序部署到在滿足企業要求的同時進行生產。
Airflow 可以歸類為“工作流管理器”類別中的工具,而 CDAP 則歸類為“大數據工具”。
Airflow 提供的一些功能包括:
另一方面,CDAP 提供以下關鍵特性:
homepage
Wrangle 設定資料源 下圖為Bigquery的public dataset
從本地端獲取file
Studio 拖拉式 建構ETL流程
上圖例子為
1.從AWS S3 擷取資料
2.進行csv 解析數據轉換
3.將數據載入biguery進行存儲
4.使用bigquery進行查詢