我們很榮幸地邀請到了在 IBM Consulting 擔任大數據工程師的 Kenny ,以大數據下的技術演變作為主題,與我們分享他的職涯。
大數據帶來自動化
隨著網路越來越發達,資料來源也變越來越多(例如:第三方公開觀測數據、Google 分析資料、CRM 等),以往讓員工手動製成報表,不但費時費力,還可能大幅提升錯誤的機率。現今,數據工程師透過ETL Extraction Transform Load,就能將上述的複雜繁瑣行為,從手動改為自動化。
自動化了,但要給誰看?
除了工程師們直接匯報的上級主管,也許行銷部門、專案經理也都需要知道分析的結果,以便輔助該部門做出決策。因此,新型態的資料庫: 資料倉儲(Data Warehouse) 取代了傳統的方式,可以儲存並展示更多來源的資料。
然而,此時的資料倉儲只能儲存表格式的資料,對於工程師來說可能在取得資料上還是有點困難。因此出現了更新的版本:資料湖泊(Data Lake),可以用來儲存結構及非結構的資料,而工程師可以從這裡直接取得需要的資料。
ETL的單多工變化
原本的 ETL(Extract - Transform - Load),是用來描述將資料從來源端經過抽取、轉置、載入至目的端的過程。單線程的 ETL 處理方式,就像是學生小考後,要排隊(單線程)等待助教改完考卷才能走。大家可以試想看看,若是只有一位助教,豈不是光是等考卷改完都等到天黑了呢?而多線程的 ETL 處理方式則是,大家考完後將考卷放在桌子上就可以走了,助教照著自己的速度拿考卷來改,並且可能聘請更多的助教。這樣是不是比較符合我們的日常,也比較有效率呢?這就是改為多線程的好處,能夠大幅降低加載的時間。而 AWS 也提供了不少服務,讓數據工程師跟數據科學家工作起來更加輕鬆容易,像是 EMR, Athena, S3, RDS, SageMaker, QuickSight 等,有興趣的朋友們不妨研究並使用看看喲!
AWS - Cloud Support Engineer
在來到 IBM 之前,Kenny 曾當過 AWS 的雲端支援工程師。並負責大數據相關的服務。
他的工作職責有:
- 指導客戶
作為一個雲端支援工程師,要去跟客戶解釋這些會用到的服務。當客戶會不清楚或是觀念錯誤,就得要像一個線上家教般耐心指導客戶。Kenny 也提到,有時客戶會開緊急案件,需要在短時間內觀察客戶用法,並且有效率的解決客戶問題。
- 尋找問題根源
要成為一個成功的雲端支援工程師,必須要能夠找到問題及發生的原因。此時「有邏輯和系統性去排查問題發生的原因」就會非常重要,像是去看日誌和指標,慢慢收斂問題的原因。
- 為客戶著想
「不是努力思考怎麼賺客戶更多錢,而是努力替他們省錢省力。」大多數企業最終目標都是追求利潤,但是 AWS 則是將重點放在「提供最好的服務」,讓客戶有效率又省錢地解決問題。
決定轉職
Kenny 在學生時期大部分都是擔任開發角色,但第一份工作卻主要是排除問題,能寫到程式的比例較低。他漸漸發覺自己對程式的熟練度下降,且工作都是以個案問題為起始與結束,較為單點發散式,無法彙整起來。因此決定暫時離開,去找開發相關的工作。
但Kenny也提到:單點發散式的工作未必不好,因為每天的工作都是很獨立的個案問題,讓他在未來做事時的效率跟反應速度都提升了不少!
IBM Consulting - Big Data Engineer
作為大數據工程師,Kenny 要了解客戶需求,並且開發系統來滿足客戶。
其工作內容有:
- 專案導向
在擔任大數據工程師時以專案為單位去解決。例如:協助半導體廠,將大型資料軟體上雲。
- 跨國開發
Kenny 需要帶領台灣、印度工程師,與美國架構師合作開發。這對他而言是第一次的跨國開發體驗,需要去思考不同文化間要怎麼合作,才能共同完成專案。
- 專業顧問
客戶會尋求外部協助就是因為他們不清楚上雲的方式及相關內容,而此時就應該要去了解客戶的狀況與需求,結合之前的經驗,給予客戶最好的解決方案。
上雲有多難
也許很多人會認為:上雲不就是把程式碼直接搬到雲的環境就可以用了嗎?
但是 Kenny 說了:能順利是可遇不可求的!
上雲可以大略分為四種難易程度:
- Lift and Shift - 最簡單,直接移過去就完成!
- Rebuilding - 在既有的程式碼上做點更動,使其在雲端上可以運作。
- Replacing - 需要改更多的程式碼,才能更好的利用雲端帶來的好處。
- Refactoring - 原本的程式碼有可能是十幾年前寫的,因此要重寫邏輯才能運用到雲端上,難度最高,也需要更最多工時,卻也能更多能夠優化的機會。
準備證照!要考證照的快點筆記!
想要進入 AWS ,手上擁有幾張證照一定會有所加分!因此 Kenny 也不藏私地與我們分享了考證照資源:
- 課程 - 官方提供的資源、Udemy、learn.A CLOUD GURU
- 部落格 - 有整理過的文章,常出現的考試內容
- 題庫 - 跟考試內容相當接近,強烈建議考生可以練習
---------------
Kenny 非常用心,為了讓我們能更好理解後續提到的工作內容,因此先用了許多故事般的敘述或比喻,為我們闡述了隨著大數據的出現,各項流程及工作是如何演進。讓我們瞭解了基本的資料處理程序後,再分享了在兩邊工作的職責、心得與差異,最後也大方地分享了準備證照的資源。相信經過這兩個小時的 Training,身為大使的我們不緊提升了自己的技術知識,更豐富了對這些職位的認識!