
上圖是截取 Snowflake 2025年第一季的財報會議的簡報,一張投影片清晰地展示了其龐大且活躍的生態系統。上圖中,圍繞著 Snowflake 的是來自資料儲存、數據分析、雲端軟體和人工智慧領域的眾多合作夥伴。它揭示了 Snowflake 在現代數據版圖中的核心地位。那麼,Snowflake 究竟是一家什麼樣的公司?這篇內容想和大家分享數據資料公司。
現代資料堆疊 (Modern Data Stack, MDS)
要瞭解Snowflake這類型的公司,必需要先瞭解它在現代資料堆疊處於在什麼樣的位置。現代資料堆疊是用於以可擴展、高效且經濟的方式收集、儲存、處理和分析資料的工具和技術的集合。它們包含各種功能,包括用於提取的資料管道、基於雲端的資料儲存、資料轉換、資料分析和視覺化以及資料科學和機器學習。
現代資料堆疊主要有 6 個功能:資料來源(Data Sources)、資料通道(Data Pipeline)、資料儲存(Data Storage)、資料轉換(Data Transformation)、數據分析/視覺化(Analysis/Visualization)、數據科學/機器學習(Data Science/ML)。- 資料來源(Data Sources):資料來源是資料的起源,包括資料庫、API、日誌和外部服務。它們提供需要聚合、提取和處理的原始資料。
- 資料通道(Data Pipeline):資料管道將資料從來源移動並轉換到目標(例如資料倉庫)。它們處理資料的提取、轉換和載入過程(ETL:Extract, Transform, Load)以及反向 ETL。
- 資料儲存(Data Storage):資料儲存解決方案儲存已處理的資料以供查詢和分析。它們包括雲端資料倉庫、資料湖和資料庫。
- 資料轉換(Data Transformation):數據轉換工具清理、豐富和重塑數據,為分析和報告做好準備。
- 數據分析/視覺化(Analysis/Visualization):分析工具可讓使用者探索和視覺化大數據、建立業務儀表板並產生見解。
- 數據科學/機器學習(Data Science/ML):資料科學和機器學習工具支援預測建模、分類和異常檢測。
下圖可以清楚瞭解到,各個公司的主要功能,圖中也有我之前提過的被Salesforce併購的Informatica主要是資料型錄,而Salesforce旗下的Tableau則是資料視覺化工具(有點像微軟的Power BI)。而Snowflake和Databricks這些公司主要是在做資料儲存和處理平台,協助其他企業進行數據資料分析。

資料湖與資料倉儲 (Data Lake vs Data Warehouse)
那麼瞭解Snowflake是在協助企業進行資料分析,接下來,我們要瞭解資料儲存中資料湖和資料倉儲的差異,資料湖(Data Lake)和資料倉儲(Data Warehouse)是不同的雲端儲存解決方案。
- 資料倉儲:以結構化格式來存放資料。其為針對分析和商業智慧的預先處理資料的中央儲存庫。最適合處理由特定模式定義的結構化數據,這些模式將資料組織到整齊、標記清晰的框中。這種結構有助於維護資料質量,並簡化使用者與資料的互動和理解方式。這種結構有助於維護資料質量,並簡化使用者與資料的互動和理解方式。不過資料倉儲不支援非結構化資料,並且在資料儲存的增量和速度上都有限制。資料和儲存是集中在一起,使得資料利用的成本非常高。
- 資料湖:用於原始資料和非結構化資料的中央儲存庫。讓你可以先儲存資料,稍後再處理。常用於串流媒體、機器學習或資料科學場景。就其可容納的資料類型而言,它比資料倉儲更靈活,涵蓋從高度結構化的資料到鬆散組裝的資料。資料湖中資料的儲存和處理是分離的,允許資料湖獨立向外擴展。

資料儲存公司在解決什麼問題?
讀到這邊可能會想說不過就是存放資料,那它到底有什麼了不起?這就要從傳統的資料堆疊 (legacy data stacks, LDS)講起,LDS依賴僵化的本地基礎架構,這些基礎架構在可擴展性、靈活性和即時處理方面存在困難。
傳統的資料堆疊除了在資料的類型和結構不同,它們在資料的格式、資料的安全等方面也存在很大的差異。過去一間企業由於成本、維護或硬體限制而達到了可擴展性的上限。傳統堆疊的主要特徵:本地伺服器是固定容量、需要手動 ETL 管道維護複雜、由於整合有限而導致的資料孤島(Data Silos)、隨著時間的推移,營運成本會越來越高。但是這些問題在雲端不存在這些限制。

所以傳統的資料堆疊的問題,有大量的企業需要這種資料平台,這就造就了像Snowflake這類型的公司,需要把資料湖和資料倉庫作整合。除了資料孤島以外,現在的網路安全、隱私也愈來愈嚴格,還要提防網路攻擊。使得資料數據的治理和安全考量變得不可或缺。
另外,現在人工智慧類型的公司(比如OpenAI)興起,像Snowflake這種資料數據的公司除了協助企業進行資料管理,同時也在協助企業進行資料數據的應用。無論要解決的是海量資料規模、混合資料類型、語言偏好、外部資料存取、可擴展性,還是地理和雲端多樣性問題,Snowflake 都能提供幫助。
Snowflake主打的簡單和省時,將應用作為主要的目標協助客戶專注在數據分析,而不是花時間在平台上,對於客戶來說簡單易懂是Snowflake的主要特色之一。

Snowflake vs. Databricks
說到Snowflake這間公司,就不得不提到經常與它相比的Databricks。這兩間公司經常被拿來做比較,原先這兩間公司的性質不太一樣。下圖是Snowflake和Databricks兩間公司的發展,一開始Snowflake是做資料分享(Data Sharing)和雲端資料倉庫的公司(Data Markeplace),而Databricks則是專注發展在機器學習(ML flow mode serving)。
直到2021年,Databricks推出自家的SQL資料倉庫(Photon Databricks SQL Dashboards),之後這兩間公司的業務重疊愈來愈高,所以這兩間公司也經常在比較自己比對方還優秀。

來看看這兩間公司官網有趣的說明:
先是Databricks提到:Snowflake 上的 ETL 成本比 Databricks Lakehouse 高出 9 倍。ETL 工作負載是分析和 AI 計劃的基礎,通常佔組織整體資料成本的 50% 或更多。 LLM 和其他 AI 應用的快速崛起迫使企業更加深入思考如何以經濟高效的方式實現擴展。
Databricks甚至還出指南,教導它們的客戶如何從Snowflake 遷移到 Databricks 😂

Databricks官網
另一邊,Snowflake官網則寫說:"Time is Money – Save Both with Snowflake",時間就是金錢-Snowflake 幫助您節省時間和金錢。Snowflake強調它們的產品做到可自動執行集群管理、維護、升級和性能改進,以幫助客戶大幅節省原本用於載入和手動平臺管理的時間和成本。客戶現在可以重新分配寶貴的資源,以更快地發佈產品和專案。
簡單來說,Snowflake主打節省平台管理時間,把錢花在更重要的事情上。

Snowflake 官網
透過前面的介紹,相信大家對「數據資料」以及 Snowflake 與 Databricks 這兩家公司都有了初步的了解。在此,我想先做個小結。關於這個主題,我還有更深入的內容可以分享,特別是:財務現況、企業護城河分析…等。
如果您對上述議題有興趣,歡迎留言給我,我會根據大家的反應來準備下一篇的深度分析。