教你看懂數據資料公司: Snowflake vs Databricks

更新於 發佈於 閱讀時間約 9 分鐘
raw-image

上圖是截取 Snowflake 2025年第一季的財報會議的簡報,一張投影片清晰地展示了其龐大且活躍的生態系統。上圖中,圍繞著 Snowflake 的是來自資料儲存、數據分析、雲端軟體和人工智慧領域的眾多合作夥伴。它揭示了 Snowflake 在現代數據版圖中的核心地位。那麼,Snowflake 究竟是一家什麼樣的公司?這篇內容想和大家分享數據資料公司。


現代資料堆疊 (Modern Data Stack, MDS)

要瞭解Snowflake這類型的公司,必需要先瞭解它在現代資料堆疊處於在什麼樣的位置。現代資料堆疊是用於以可擴展、高效且經濟的方式收集、儲存、處理和分析資料的工具和技術的集合。它們包含各種功能,包括用於提取的資料管道、基於雲端的資料儲存、資料轉換、資料分析和視覺化以及資料科學和機器學習。

現代資料堆疊主要有 6 個功能:資料來源(Data Sources)、資料通道(Data Pipeline)、資料儲存(Data Storage)、資料轉換(Data Transformation)、數據分析/視覺化(Analysis/Visualization)、數據科學/機器學習(Data Science/ML)。

  1. 資料來源(Data Sources):資料來源是資料的起源,包括資料庫、API、日誌和外部服務。它們提供需要聚合、提取和處理的原始資料。
  2. 資料通道(Data Pipeline):資料管道將資料從來源移動並轉換到目標(例如資料倉庫)。它們處理資料的提取、轉換和載入過程(ETL:Extract, Transform, Load)以及反向 ETL。
  3. 資料儲存(Data Storage):資料儲存解決方案儲存已處理的資料以供查詢和分析。它們包括雲端資料倉庫、資料湖和資料庫。
  4. 資料轉換(Data Transformation):數據轉換工具清理、豐富和重塑數據,為分析和報告做好準備。
  5. 數據分析/視覺化(Analysis/Visualization):分析工具可讓使用者探索和視覺化大數據、建立業務儀表板並產生見解。
  6. 數據科學/機器學習(Data Science/ML):資料科學和機器學習工具支援預測建模、分類和異常檢測。

下圖可以清楚瞭解到,各個公司的主要功能,圖中也有我之前提過的被Salesforce併購的Informatica主要是資料型錄,而Salesforce旗下的Tableau則是資料視覺化工具(有點像微軟的Power BI)。而Snowflake和Databricks這些公司主要是在做資料儲存和處理平台,協助其他企業進行數據資料分析。

raw-image

資料湖與資料倉儲 (Data Lake vs Data Warehouse)

那麼瞭解Snowflake是在協助企業進行資料分析,接下來,我們要瞭解資料儲存中資料湖和資料倉儲的差異,資料湖(Data Lake)和資料倉儲(Data Warehouse)是不同的雲端儲存解決方案。

  • 資料倉儲:結構化格式來存放資料。其為針對分析和商業智慧的預先處理資料的中央儲存庫。最適合處理由特定模式定義的結構化數據,這些模式將資料組織到整齊、標記清晰的框中。這種結構有助於維護資料質量,並簡化使用者與資料的互動和理解方式。這種結構有助於維護資料質量,並簡化使用者與資料的互動和理解方式。不過資料倉儲不支援非結構化資料,並且在資料儲存的增量和速度上都有限制。資料和儲存是集中在一起,使得資料利用的成本非常高。
  • 資料湖:用於原始資料和非結構化資料的中央儲存庫。讓你可以先儲存資料,稍後再處理。常用於串流媒體、機器學習或資料科學場景。就其可容納的資料類型而言,它比資料倉儲更靈活,涵蓋從高度結構化的資料到鬆散組裝的資料。資料湖中資料的儲存和處理是分離的允許資料湖獨立向外擴展。
raw-image



資料儲存公司在解決什麼問題?

讀到這邊可能會想說不過就是存放資料,那它到底有什麼了不起?這就要從傳統的資料堆疊 (legacy data stacks, LDS)講起,LDS依賴僵化的本地基礎架構,這些基礎架構在可擴展性、靈活性和即時處理方面存在困難。

傳統的資料堆疊除了在資料的類型和結構不同,它們在資料的格式、資料的安全等方面也存在很大的差異。過去一間企業由於成本、維護或硬體限制而達到了可擴展性的上限。傳統堆疊的主要特徵:本地伺服器是固定容量、需要手動 ETL 管道維護複雜、由於整合有限而導致的資料孤島(Data Silos)、隨著時間的推移,營運成本會越來越高。但是這些問題在雲端不存在這些限制。

raw-image

所以傳統的資料堆疊的問題,有大量的企業需要這種資料平台,這就造就了像Snowflake這類型的公司,需要把資料湖和資料倉庫作整合。除了資料孤島以外,現在的網路安全、隱私也愈來愈嚴格,還要提防網路攻擊。使得資料數據的治理和安全考量變得不可或缺。

另外,現在人工智慧類型的公司(比如OpenAI)興起,像Snowflake這種資料數據的公司除了協助企業進行資料管理,同時也在協助企業進行資料數據的應用。無論要解決的是海量資料規模、混合資料類型、語言偏好、外部資料存取、可擴展性,還是地理和雲端多樣性問題,Snowflake 都能提供幫助。

Snowflake主打的簡單和省時,將應用作為主要的目標協助客戶專注在數據分析,而不是花時間在平台上,對於客戶來說簡單易懂是Snowflake的主要特色之一。

raw-image

Snowflake vs. Databricks

說到Snowflake這間公司,就不得不提到經常與它相比的Databricks。這兩間公司經常被拿來做比較,原先這兩間公司的性質不太一樣。下圖是Snowflake和Databricks兩間公司的發展,一開始Snowflake是做資料分享(Data Sharing)和雲端資料倉庫的公司(Data Markeplace),而Databricks則是專注發展在機器學習(ML flow mode serving)。

直到2021年,Databricks推出自家的SQL資料倉庫(Photon Databricks SQL Dashboards),之後這兩間公司的業務重疊愈來愈高,所以這兩間公司也經常在比較自己比對方還優秀。

raw-image

來看看這兩間公司官網有趣的說明:

先是Databricks提到:Snowflake 上的 ETL 成本比 Databricks Lakehouse 高出 9 倍。ETL 工作負載是分析和 AI 計劃的基礎,通常佔組織整體資料成本的 50% 或更多。 LLM 和其他 AI 應用的快速崛起迫使企業更加深入思考如何以經濟高效的方式實現擴展。

Databricks甚至還出指南,教導它們的客戶如何從Snowflake 遷移到 Databricks 😂

raw-image

Databricks官網



另一邊,Snowflake官網則寫說:"Time is Money – Save Both with Snowflake",時間就是金錢-Snowflake 幫助您節省時間和金錢。Snowflake強調它們的產品做到可自動執行集群管理、維護、升級和性能改進,以幫助客戶大幅節省原本用於載入和手動平臺管理的時間和成本。客戶現在可以重新分配寶貴的資源,以更快地發佈產品和專案。

簡單來說,Snowflake主打節省平台管理時間,把錢花在更重要的事情上。

raw-image

Snowflake 官網


透過前面的介紹,相信大家對「數據資料」以及 Snowflake 與 Databricks 這兩家公司都有了初步的了解。在此,我想先做個小結。關於這個主題,我還有更深入的內容可以分享,特別是:財務現況、企業護城河分析…等。

如果您對上述議題有興趣,歡迎留言給我,我會根據大家的反應來準備下一篇的深度分析。


留言
avatar-img
留言分享你的想法!
avatar-img
Invest Your Lifes
387會員
147內容數
用洞察看懂世界,也看見自己 在這個資訊爆炸、聲音彼此爭奪注意力的時代,我反其道而行,不追逐演算法的目光,反而更堅信:「真正的價值,是來自於經得起反覆思考的內容。」 Investing Your Life! Invest Ours! https://fb.com/InvestYourLifes/
Invest Your Lifes的其他內容
2025/05/31
2025Q1 Portfolio Update (US stock only)
Thumbnail
2025/05/31
2025Q1 Portfolio Update (US stock only)
Thumbnail
2025/05/30
Salesforce (股票代碼:CRM) 最新公佈的 2026 年第一季度財務報告,透過檢視其營收表現、獲利能力、營運效率、重大收購案以及資產負債狀況,我將評估這家雲端軟體巨頭的當前營運狀況與未來發展潛力。我也將關注其獲利結構中的細微變化以及近期宣布的重大收購案可能帶來的影響
Thumbnail
2025/05/30
Salesforce (股票代碼:CRM) 最新公佈的 2026 年第一季度財務報告,透過檢視其營收表現、獲利能力、營運效率、重大收購案以及資產負債狀況,我將評估這家雲端軟體巨頭的當前營運狀況與未來發展潛力。我也將關注其獲利結構中的細微變化以及近期宣布的重大收購案可能帶來的影響
Thumbnail
2025/05/26
最近特斯拉 Autopilot 軟體團隊副總 Ashok Elluswamy 接受專訪,訪談內容一直讓我一直反覆聽,主要是中間穿插很多印度的Tamil語,聽的很吃力。但聽完內容對特斯拉未來的願景又有深刻的理解。Ashok 主要討論了 自動駕駛汽車的未來,特別是預測到 2035 年....
Thumbnail
2025/05/26
最近特斯拉 Autopilot 軟體團隊副總 Ashok Elluswamy 接受專訪,訪談內容一直讓我一直反覆聽,主要是中間穿插很多印度的Tamil語,聽的很吃力。但聽完內容對特斯拉未來的願景又有深刻的理解。Ashok 主要討論了 自動駕駛汽車的未來,特別是預測到 2035 年....
Thumbnail
看更多
你可能也想看
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
商業簡報不僅僅是呈現數據,更需要深入瞭解數據分析及有效的工具運用。本文探討於Excel中使用不同函數來改善數據處理效率,包括IF、IFS、VLOOKUP、XLOOKUP及INDEX與MATCH的結合,幫助商業人士更好地從數據中提取洞見,助力業務增值,學習優化數據分析過程,讓您的商業簡報更具影響力。
Thumbnail
商業簡報不僅僅是呈現數據,更需要深入瞭解數據分析及有效的工具運用。本文探討於Excel中使用不同函數來改善數據處理效率,包括IF、IFS、VLOOKUP、XLOOKUP及INDEX與MATCH的結合,幫助商業人士更好地從數據中提取洞見,助力業務增值,學習優化數據分析過程,讓您的商業簡報更具影響力。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
Python資料視覺化在數據分析中扮演關鍵角色,透過視覺化捕捉數據模式、趨勢和異常,透過Matplotlib等工具創建專業圖表變相對簡單和高效。
Thumbnail
Python資料視覺化在數據分析中扮演關鍵角色,透過視覺化捕捉數據模式、趨勢和異常,透過Matplotlib等工具創建專業圖表變相對簡單和高效。
Thumbnail
pandas是用於資料操縱和分析的Python軟體庫。它建造在 NumPy 基礎上,並為操縱數值表格和時間序列,提供了資料結構和運算操作。 Pandas 的主要資料結構包含 Series 和 DataFrame 物件,由於 Pandas 本身基 Numpy 所以在使用大量資料運算時效能表現也優於原
Thumbnail
pandas是用於資料操縱和分析的Python軟體庫。它建造在 NumPy 基礎上,並為操縱數值表格和時間序列,提供了資料結構和運算操作。 Pandas 的主要資料結構包含 Series 和 DataFrame 物件,由於 Pandas 本身基 Numpy 所以在使用大量資料運算時效能表現也優於原
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
作為一名擁有多年經驗的數據分析師,我深知數據分析的重要性及其對企業決策的影響。然而,數據分析並不是在任何情況下都適用。今天我想跟你聊的事情是:在數據量不足或缺乏流程優化目的時,進行數據分析的局限性。
Thumbnail
作為一名擁有多年經驗的數據分析師,我深知數據分析的重要性及其對企業決策的影響。然而,數據分析並不是在任何情況下都適用。今天我想跟你聊的事情是:在數據量不足或缺乏流程優化目的時,進行數據分析的局限性。
Thumbnail
如何用Python將DataFrame中的資料擷取維新的DataFrame?
Thumbnail
如何用Python將DataFrame中的資料擷取維新的DataFrame?
Thumbnail
這本書討論了數據應用中的暗數據,探討了遺漏的資訊或數據對數據分析的影響。書中列舉了很多有趣的例子,但同時也提到暗數據仍具有價值和發現真相的可能。對於對調查研究有興趣的讀者來說很有價值,需要具備一定的統計基礎。作者強調懷疑數據的重要性,以避免暗數據的影響。
Thumbnail
這本書討論了數據應用中的暗數據,探討了遺漏的資訊或數據對數據分析的影響。書中列舉了很多有趣的例子,但同時也提到暗數據仍具有價值和發現真相的可能。對於對調查研究有興趣的讀者來說很有價值,需要具備一定的統計基礎。作者強調懷疑數據的重要性,以避免暗數據的影響。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News