Airflow vs CDAP 應用場景與差異

閱讀時間約 2 分鐘
raw-image

之前工作需要接觸到Airflow,案子需要串接大量數據流,做自動化資源調度,將調度處理後的資料利用Superset進行資料視覺化。

另外本身有在研究GCP Data Pipeline的設計與建置,在GCP的service有一項Data Fusion,Data Fusion 是GCP service名稱,實際名稱為CDAP,也是google開源的無代碼大數據工具,雖說是NO-CODE,但是在運作Spark時,也是要code準備好,輸入到他的block中做執行。

開發人員將Airflow描述為“ Airbnb 以編程方式創作、調度和監控數據管道的平台”。使用 Airflow 將工作流創作為任務的有向無環圖 (DAG)。

Airflow 調度程序在遵循指定依賴項的同時在一組工作人員上執行您的任務。豐富的命令行實用程序使在 DAG 上執行複雜的手術變得輕而易舉。

豐富的用戶界面使可視化生產中運行的管道、監控進度和在需要時解決問題變得容易。

raw-image

另一方面,CDAP被詳細描述為“面向 Hadoop 數據和應用程序的開源虛擬化平台””. Cask Data Application Platform (CDAP) 是面向 Hadoop 生態系統的開源應用程序開發平台,為開發人員提供數據和應用程序虛擬化以加速應用程序開發,解決更廣泛的實時和批處理用例,並將應用程序部署到在滿足企業要求的同時進行生產。

Airflow 可以歸類為“工作流管理器”類別中的工具,而 CDAP 則歸類為“大數據工具”

Airflow 提供的一些功能包括:

  • 動態:氣流管道是配置即代碼(Python),允許動態管道生成。這允許編寫動態實例化管道的代碼。
  • 可擴展:輕鬆定義您自己的運算符、執行器並擴展庫,使其適合您環境的抽象級別。
  • 優雅:氣流管道簡潔明了。使用強大的 Jinja 模板引擎在 Airflow 的核心中構建腳本參數化。

另一方面,CDAP 提供以下關鍵特性:

  • 用於數據攝取的串流
  • 用於常見大數據訪問模式的可重用庫
  • 可用於多個應用程序和不同範例的數據

CDAP

homepage

raw-image

Wrangle 設定資料源 下圖為Bigquery的public dataset

raw-image

從本地端獲取file

raw-image

Studio 拖拉式 建構ETL流程

raw-image

上圖例子為

1.從AWS S3 擷取資料

2.進行csv 解析數據轉換

3.將數據載入biguery進行存儲

4.使用bigquery進行查詢

    0會員
    24內容數
    留言0
    查看全部
    發表第一個留言支持創作者!
    你可能也想看
    創作者要怎麼好好休息 + 避免工作過量?《黑貓創作報#4》午安,最近累不累? 這篇不是虛假的關心。而是《黑貓創作報》發行以來可能最重要的一篇。 是的,我們這篇講怎麼補充能量,也就是怎麼休息。
    Thumbnail
    avatar
    黑貓老師
    2024-06-29
    vscode 連線遠端電腦中的 Docker教大家讓 vscode 連上遠端電腦中的 docker 環境之中,步驟詳細且附圖
    Thumbnail
    avatar
    愛看電視的小上進
    2023-12-15
    Vscode 分割畫面 --- 讓你能同時看多個檔案教大家如何把多個檔案顯示在多個 vscode 的視窗
    Thumbnail
    avatar
    愛看電視的小上進
    2023-12-06
    Vscode + SSH --- 直接編輯遠端電腦內的檔案用 Vscode 直接連到遠端電腦進行編輯、編譯、執行遠端電腦的程式檔,完整教學
    Thumbnail
    avatar
    愛看電視的小上進
    2023-12-06
    Vscode + Python --- 開發環境建置 (WSL)建置 vscode + python 開發環境的完整流程,詳細且附圖
    Thumbnail
    avatar
    愛看電視的小上進
    2023-12-04
    Vscode + Python --- 開發環境建置 (Windows)建置 vscode + python 開發環境的完整流程,詳細且附圖
    Thumbnail
    avatar
    愛看電視的小上進
    2023-12-04
    多語系的神隊友,VSCode擴充工具:i18n AllyVSCode 好用的輔助開發工具 i18n Ally
    Thumbnail
    avatar
    卡比的工程師之旅
    2023-10-20
    VS Code Pets,一邊寫程式一邊養隻療癒小寵物吧探索如何在 VS Code 中養一隻療癒的小寵物。本文將指導你安裝和使用 vscode-pets 擴充功能,讓可愛的寵物陪伴你一同寫程式。你可以選擇不同類型和顏色的寵物,甚至改變它們的遊玩場景,為你的編程時光增添樂趣和舒適。
    Thumbnail
    avatar
    Let's Write
    2023-03-23
    VSTACK、HSTACK:堆疊範圍、統整資料這次要介紹的兩個叫做 VSTACK 跟 HSTACK,可以讓你把範圍縱向或橫向堆疊起來,省去合併資料的一點麻煩!
    Thumbnail
    avatar
    喜特先生 Mr. Sheet
    2023-02-19
    【vs】和【v.s.】有差嗎?第一:vs和v.s. 第二:ex.和e.g. 第三:et al.和ibid. 第四:NG和MV
    Thumbnail
    avatar
    Tang Free
    2022-09-25
    【VS Code】使用 ftp-simple 連結伺服器本篇目標:ftp-simple 連接與使用 本篇適合:需要使用Visual Studio Code 連接伺服器進行程式寫作的朋友 過去因為在實驗室的經驗,所有的程式皆存放在實驗室的伺服器上,因此我們會需要用本機的電腦嘗試連接到伺服器進行寫作。
    Thumbnail
    avatar
    何家慈 Chia Tzu Ho
    2022-06-23