時間過得很快,真正入行從事數據分析,不知不覺也過了快三年。工作職銜也從analyst進展到時不時會掛上Sr.抬頭。
當時候轉職,無非是找一個經濟上affordable的工作。但一路上下來,卻常常遇到跟自己很相近的人們。在一個看似充滿機會,也充滿不確定的年代,找尋著屬於自己的機會。
我覺得這一路上,我算是一個幸運的人。想做的事情,總是在努力一陣子之後,會慢慢浮現一些機會。包括由自己嘗試組織一個工作團隊。
就職涯經歷來說,從事管理職對我而言並非新鮮事,而從事一個數據分析的管理職確實是一個新的職涯挑戰。
組一個Data Team,開始會遇到來自不同工作經歷跟背景的人。有本科的、非本科的、相關領域的,或是未必相關但卻有許多不錯專案成果的人。坦白說,這個人人都可以寫code的時候,我自己找人的準則就未必都會是科系關聯。看的,或許都還是這個人在職涯發展的軌跡中,他有沒有一些很強烈的動機,想要發展一些路徑。
會這麼假設,是因為,在我一路上已經聽到太多人,大學學的事情跟軟體一點關係也沒有卻仍可以跳進Nv等級的公司當軟體工程師。聽到這種故事,總會時時提醒自己,這確實是一個難得的年代阿。如果,我們相信一種論的是個人能力,而非某種偏狹觀點來作為找人的依據,那這個年代,聽到這些故事,似乎是相當激勵人心的事情呢。
我的team有本科出生的資料工程師、有非本科出生但跳進大公司當軟體工程師的資料工程師、有統計跟程式編譯高手、有商業分析師、有剛畢業的碩士生還有一位專案管理人員。嚴格說起來,本科生只有兩位。其他,其實都是中間出去學,再回來的加入大家的。
我常常會想,這種人員組成的型態,是少數,還是多數呢?

(photo: @Dublin)
那麼說到底,這些看似都很像地抬頭,在實務現場上都在做些什麼呢?
或許就先從數據分析師開始。
數據分析(Data Analyst)的頭銜,是多數非軟體出身而最容易跨進去的工作職缺。
這個工作因為是從處理日常數據開始,因此,許多人有一些基礎的程式訓練之後,就可以很快地上手。很多人會從python開始學起;但事實上,python並不是唯一處理數據的工具。如果是從學校出來的人,大多會接觸類似SPSS、R甚至是STATA這種統計工具。坦白說,這種學校的統計工具用得好,還是可以做數據分析的。
python最大的優勢,是在於它的可延展性,以及未來如果想要做網站開發,其實也都可以從此入手。這或許也是為什麼許多做數據分析的人會從python學起。
另一個做數據分析幾乎是必要的工具,應該是SQL語言。SQL是結構化資料庫的程式語言。它是為了萃取資料庫裏頭的資料而開發的,只是,當SQL寫得好的時候,它也可以當作數據分析工具的一部分。因此,如果要做數據分析師,許多人就會從python跟SQL開始學起。
資料工程師呢。資料工程師(Data Engineer)做的事情,比較接近網站的後端工程師做的事情。只不過,後端工程師維護的是網站的Data Base(DB),資料工程師則是維護分析使用的DB。或許會好奇,DB為什麼會需要有專門的人來維護?有這個必要嗎?說實在,這對於一個從學院出來的人來說,應該很難直覺得回答這個問題。但如果是待過巨型公司撈取ERP的業務歷史資料的人,應該會發現,如果你的ERP歷史資料並不乾淨,那麼有時候要簡單做一個趨勢性分析的報表,數字怎麼算都會很奇怪。也因為如此,在ERP之外的DB要建置一個,具有長期歷史累計的DB就需要一些力氣。而這也是所謂大數據分析的基礎。所謂數據量體要大,不外乎資料橫跨的欄位(維度)要多,要馬時間長度要夠長(或是夠精細),時間跟維度都夠廣的話,可以做出來的分析跟內涵就豐富許多。也就是說,一切的資料分析都始於資料工程的DB建置,沒有這些經年累月且乾淨的資料,是很難做出有品質的分析的。