從事數據分析這個職位好一段時間,主要都待在台灣。也正好經歷一些公、私企業,金融、零售、製造跟甚至是政府機關內的數據分析工作。這篇想要分享,為什麼一間公司(或是機構)會需要數據分析,什麼等級的公司大概會需要什麼樣的團隊組成?
多數人會看到數據分析是python, SQL, PowerBI或是什麼視覺化工具。坦白說,我蠻同意這些粗略的認識的。這也是我一開始對這個職位最主要的認識。只是,當產業接觸越多,參與的專案越來越複雜時,其實到頭來會發現,工具終究是工具;而最重要的還是,使用者想要解決什麼問題?
前幾篇文章討論數據分析的資料品質時,其實就有提到社會科學訓練最常講的「問題意識」。用白話來說就是,你看這些資料,或是在想像這些資料時,背後帶著什麼疑問要來處理它?比方說,你想知道為什麼銷售增加了?想知道為什麼產品的良率下降了?這些都是問題。有這些問題之後,下一步就是:「哦,我想要找資料來驗證一下,或是來看一下資料是不是真的如同我心中猜測的那樣。」而當使用者,或是帶著問題意識的人,要開始動手整理資料時,就會開始發現,哇!這些滿山滿谷四散在不同伺服器、資料庫、個人電腦的EXCEL檔該怎麼動手分析呢?
我自己工作一段時間後,會發現數據分析團隊對一個龐大機構來說,這段工作是最有價值也是最珍貴的工作內容:梳理資料。
梳理資料是白化的說法,但在專門領域裡面,這個概念會被稱為ETL或是ELT(Extract , Transform, Load)。
你如果是一個具有問題意識,或是數據分析者,多半會發現,你想要回答一個具有數據來佐證的問題時,大概有超過七成的時間是在梳理資料,這包含,確認資料庫裏面的欄位,開發像是SQL語言這種資料庫的表,接著是各種資料的清理,經過好一段時間的清理跟簡單的統計計算確認之後,才有辦法做一些簡單的視覺化圖表。然後,才是什麼模型開發、統計驗證等等等。
在我的經驗裡,如果這些細瑣的工作在平常沒有人維護(或是根本還沒有建立這些數據分析團隊之前),一個人從頭做到尾,會花上非常多的時間,甚至許多人就乾脆放棄了...。
許多公司越來越大,資料量開始越多的時候,當他們想要開始從內部的資料找尋一些行為趨勢時,數據分析師或是他們的團隊腳色就會逐一浮現。不管是從資料工程、商業智慧分析、演算法開發、機器學習等領域。大家會發現,你越需要整理或是探勘這些資料,越需要有一群人每天在幫你維護資料的品質、檢查資料的狀況,計算這些數據的產出,繪製圖表,甚至是最近最夯的,用大型語言模型(LLM)來試試看。
而通常有這種勇氣跟決心要建置這種數據分析團隊的公司,一方面公司的尺度與他們的經營模式多具規模(最常見的就是幾個科技巨頭,google, AWS, META, Microsoft)多有這種數據分析團隊或是角色;另一方面,是他們的商業活動型態就與IT設備拖不了關係,如,UBER、電商平台等。通常數據分析者會發現,數據幾乎等同於是這些公司的命脈,因為你不會有人每天用EXCEL在那邊分析每天幾億筆交易資訊做什麼資料探勘的。
有機會再來分享,我所經歷的產業特徵,所喜好數據分析的類型與落地時候會遇到的不同議題。





