最近接了一個新角色,遠端培訓公司裡的新進供應鏈資料分析師,發現許多新人一開始做專案就想著使用花俏的工具、模型,往往忽略一些最簡單的基礎,比如資料驗證。
舉例來說,我們在做RFQ時,往往會拿到業務從客戶端拿到的需求資料,像是店鋪序號-郵遞區號-SKU 層級的需求表,新人們往往拿到後就開始如火如荼地建模型、資料視覺化,我反問他們兩個問題
- 每個郵遞區號都只有一個店鋪嗎?
- 每個店鋪都只有一個郵遞區號嗎?
他們通常會回答
- 一個郵遞區號通常只會有一家店吧!? 他們佈點不會那麼密吧?
- 一家店怎麼可能有多個郵遞區號!
結果跑了個簡單SQL驗證,發現有些大商場就有開個兩間,每個郵遞區號因人口密度,開店數也不同。再來也有發現同個實體店鋪序號有超過一個郵遞區號的狀況,將問題回報給業務和客戶,發現客戶會reuse店鋪序號。這些狀況都不是難以辨識,僅需要簡單的資料處理能力(SQL/ Excel pivot)即能找出,並且有著對數字的敏感度、好奇心加上勤勞一點,It is not Rocket Science!
https://www.threads.net/@dn.ape/post/DGX48zWp0Cf?xmt=AQGz66xIhj9Hcs8YIkLSLUDuAAr3wWs5IIEwEr2udBpfyA