從2021年9月底開始,我規劃了一個資料科學專案,試著用機器學習模型提升簡訊行銷活動的成效。過去,這類型的行銷活動通常是由領域專家(Domain Expert)根據消費者行為、促銷主題等條件,篩選出具有消費潛力的顧客,並進行簡訊發送,這是零售業行之有年的作法。簡訊行銷看似小道,但裡面還有金礦可挖。專案以A/B測試的方式進行,以模型預測組為A組,人為篩選組為B組,兩組依照各自的方式挑選出簡訊寄送名單,並在檔期結束之後比較績效。這個專案從11月份開始執行,進行6次的測試,戰況一度殺得難分難解,我的模型也經歷了數次迭代,納入更多面向的資料。
2022年2月7日,農曆年後第一個上班日,我結算了第7次的活動成效,結果A組的投資報酬率(ROI)遙遙領先17%!當進一步計算增加的毛利額時,我再次驚訝的發現,這個金額已經超過我年薪的15倍,而這個檔期的時間僅僅8天!爾後的幾次活動,A組的ROI穩定領先20-35%,即使是規模較小的活動,簡訊的發送數量較少,毛利額也能達到我年薪的30%。
這個數字太漂亮,漂亮到甚至會讓人疑惑,「有些顧客有固定的消費周期,即使不提供促銷資訊給他們,他們還是會回購呀!」這個論點十分合理,但基於以下兩個原因,這個疑問可以直接被忽略。首先,站在廣告投放者的角度,我們本來就不可能判定顧客是自發性購物,還是看到廣告內容才購物,甚至顧客本人可能都說不清楚,無法簡單的收集資料是第一個難題。其次,持續與忠實顧客保持互動是品牌經營與CRM的重要環節,而且每封簡訊的發送費用不到1元,比起顧客的消費金額,這些費用根本不足掛齒。總結來說,上述疑慮確實存在,但沒有驗證的必要。即使將數字砍半,也還是相當讓人驕傲的績效。
這份難以言喻的成就感是催生這篇文章的主要原因,我想分享在專案規劃與數據分析技術上的經驗,並拆成為三個階段,分別為專案規劃、專案執行與成效評估,執行階段會著墨於程式設計面的分享。
另外,由於每間公司的數據團隊規模大小不一,分工較細的團隊通常會包含資料工程師、PM等職位,但為了避於文字敘述上過於混亂,這篇文章統一用資料科學家作代表,這確實也符合我在工作上的真實情況。
專案規劃階段
我在2021年10月參加SAS線上研討會時,SAS的顧問提到,有8成的預測模型在開發後都沒有落地,VentureBeat上也有一篇文章
〈Why do 87% of data science projects never make it into production?〉,光看標題就可以知道,有87%的資料科學專案都無疾而終,沒能貢獻商業價值。專案夭折的原因當然綜縱複雜,不能一概而論,但可以確定的是,在討論資料清理、演算法挑選、模型建置、參數調校等技術問題之前,專案規劃的品質就能很大程度的決定是否夭折。是的,不能決定是否成功,只能決定是否夭折。那什麼樣的專案才算是一個好的專案?我認為第一個條件是能幫公司獲利,第二個條件是能用數字證明增加的利潤是歸功於這個數據分析專案。說起來容易,但過程卻是困難重重,其中又可分成三個部份:定義問題、擬定行動方案與設立績效評估指標。
定義問題
定義問題是資料科學專案的第一步,也可能是走偏開始。由於每個人的工作內容不同,工作習慣與思惟模式不同,因此,必須在反覆討論中明確的定義問題,而資料科學家像哆啦A夢,必須在定義問題後給出適合的解決方案。
舉例來說,如果你在18世紀末問任何一個人,他需要什麼樣的交通工具,所有人都會說,「給我一匹更快的馬」,卻幾乎沒有人會說「給我一部汽車」,因為當時大部份的人仍不知道汽車是什麼。資料科學家掌握了較多的科技新知與方法論,就能夠給出車子這個選項。
如果我們再往後一百年,到了19世紀末,有個人說他需要一部汽車,他需要的真的是汽車嗎?他可能是個商人,真實需求是獲得市場上的最新消息,比起汽車,他其實更需要一部電話。
資料科學家也有自己的盲點在,「如果你手上有把錘子,看什麼都像釘子」,這是資料科學家的處境。如果你掌握了機器學習與深度學習的技能,是不是就應該把這些能力應用到每一個專案上呢?即使只是一次性的專案,也需要大費周章的建置模型嗎?
在定義問題的階段,確實需要大量的溝通,有時候已經明確定義了問題,卻又覺得某個環節的邏輯怪怪的。這時,最好的方式是不停的詢問「你的行動方案是什麼?」,也就是下個步驟。
擬定行動方案
除非是研究型專案,否則絕大多數的專案都應該要能產生行動方案(Action Plan),知識傳播並非最終目的,不能產生行動方案的專案幾乎等同一個沒有價值的專案,也可能是在定義問題階段就已經走錯方向,必須回到上一個步驟重新來過。
在大部份的專案中,做行動的人往往不會是資料科學家本人,這代表一百分的專案結果可能會因為執行率不良,最後只能創造四十分的商業價值。因此,在專案規劃階段,最好就可以預想所有可行的行動方案,是否需要進行跨團隊、跨部門溝通,當涉及的人越多,後續潛在的溝通成本也越高,尤其當資料科學家必須身兼PM的角色時,可能會分散資料科學家投入在技術面的時間。
以前面提到的簡訊行銷模型為例,這個專案的行動方案單純到不能再單純,和過去一樣發送簡訊即可,不會有任何的雜訊干擾,不需花費大量斡旋於溝通協調之中,以資料科學家的角度而言,這是個近乎完美的專案情境。