前陣子聽到《尹相志 — 算法工程師與數據科學家之間的距離 (DATA)》的講座,數據科學家在意什麼?如何運用數據?如何成為好的數據科學家?這篇隨筆記錄一下講座的數據思維和模型思維。
▍思維增長是什麼?
這裡記錄各種有趣的生活小知識,不限於商業上的經濟學、或工作上的心理成長。
▍誰適合看這篇文章?
✔ 對於思維增長、數據科學、數據思維有興趣的朋友
尹相志講師目前是亞洲資採技術長 / Deepbelief.ai人工智慧科學家,在網路上也有超多的講座影片和經歷。
看完這支影片我認為有三大收穫:
Q:「電信業如何預設客戶會離開?」
電信業的數據很龐大,如果是要預設下個月有哪些客戶會走,每個月的歷史紀錄大概要到隔月的 5–8 號才會拿到,接著數據科學家進行資料解析整理,再丟進模型產生名單可能就 15 號了,而現在因為個資法,出來的只有 Key 值,因此需要再送回電信公司進行身分比對、傳到各客戶單位,大概就 20 號了。
先說結論,客戶在合約 24 個月時會不會離開,需要第 18 個月就要知道(提前 6 個月讓行銷能夠提前進行推廣、挽留、續約)。
以電信業來說,客戶離開有兩個原因:
那若要分析電信客戶,客戶資料怎麼抓:
小結:有些模型產出的結論是已知事實,因此我們必須先扣除無用數據,要懂產業 Knowhow,才能把問題解決掉。
在多數商業問題內,可控的模型、可監控的參數是重要的,若全部透過神經網路,黑盒子發現問題的時機點通常較慢,因為最大的風險是不知道模型什麼時候會失效。
普通的模型和好的模型差在哪?可以從法醫跟名醫差別來聯想:
仰賴模型前有幾個準則:
小結:準確的模型不一定有用,我們應該追求模型帶來多少效益;模型重點不在於完全精準,而是要能夠改變未來,讓公司降低損失、提高獲利。
算法工程師和數據科學家的差異是,前者只要做好模型讓他們使用,但後者不僅要會模型,更要懂產業 Knowhow,藉由問對的問題、挖掘對的方向、把問題解決掉。
以不同產業的團隊協作例子:
做數據科學,需要準備的心態:
小結:每個產業都有複雜的商業邏輯和對應的 Knowhow,當我們覺得問題很簡單或數據很奇怪,很有可能是我們根本不懂產業 Insight。
若對《思維增長日記》有興趣,可以再往前翻: