AI落地,資料科學專案的規劃、執行與商業影響力1 - 規劃篇

更新於 發佈於 閱讀時間約 6 分鐘
raw-image

從2021年9月底開始,我規劃了一個資料科學專案,試著用機器學習模型提升簡訊行銷活動的成效。過去,這類型的行銷活動通常是由領域專家(Domain Expert)根據消費者行為、促銷主題等條件,篩選出具有消費潛力的顧客,並進行簡訊發送,這是零售業行之有年的作法。簡訊行銷看似小道,但裡面還有金礦可挖。專案以A/B測試的方式進行,以模型預測組為A組,人為篩選組為B組,兩組依照各自的方式挑選出簡訊寄送名單,並在檔期結束之後比較績效。這個專案從11月份開始執行,進行6次的測試,戰況一度殺得難分難解,我的模型也經歷了數次迭代,納入更多面向的資料。

2022年2月7日,農曆年後第一個上班日,我結算了第7次的活動成效,結果A組的投資報酬率(ROI)遙遙領先17%!當進一步計算增加的毛利額時,我再次驚訝的發現,這個金額已經超過我年薪的15倍,而這個檔期的時間僅僅8天!爾後的幾次活動,A組的ROI穩定領先20-35%,即使是規模較小的活動,簡訊的發送數量較少,毛利額也能達到我年薪的30%。

這個數字太漂亮,漂亮到甚至會讓人疑惑,「有些顧客有固定的消費周期,即使不提供促銷資訊給他們,他們還是會回購呀!」這個論點十分合理,但基於以下兩個原因,這個疑問可以直接被忽略。首先,站在廣告投放者的角度,我們本來就不可能判定顧客是自發性購物,還是看到廣告內容才購物,甚至顧客本人可能都說不清楚,無法簡單的收集資料是第一個難題。其次,持續與忠實顧客保持互動是品牌經營與CRM的重要環節,而且每封簡訊的發送費用不到1元,比起顧客的消費金額,這些費用根本不足掛齒。總結來說,上述疑慮確實存在,但沒有驗證的必要。即使將數字砍半,也還是相當讓人驕傲的績效。

這份難以言喻的成就感是催生這篇文章的主要原因,我想分享在專案規劃與數據分析技術上的經驗,並拆成為三個階段,分別為專案規劃、專案執行與成效評估,執行階段會著墨於程式設計面的分享。

另外,由於每間公司的數據團隊規模大小不一,分工較細的團隊通常會包含資料工程師、PM等職位,但為了避於文字敘述上過於混亂,這篇文章統一用資料科學家作代表,這確實也符合我在工作上的真實情況。

專案規劃階段

我在2021年10月參加SAS線上研討會時,SAS的顧問提到,有8成的預測模型在開發後都沒有落地,VentureBeat上也有一篇文章〈Why do 87% of data science projects never make it into production?〉,光看標題就可以知道,有87%的資料科學專案都無疾而終,沒能貢獻商業價值。專案夭折的原因當然綜縱複雜,不能一概而論,但可以確定的是,在討論資料清理、演算法挑選、模型建置、參數調校等技術問題之前,專案規劃的品質就能很大程度的決定是否夭折。是的,不能決定是否成功,只能決定是否夭折。那什麼樣的專案才算是一個好的專案?我認為第一個條件是能幫公司獲利,第二個條件是能用數字證明增加的利潤是歸功於這個數據分析專案。說起來容易,但過程卻是困難重重,其中又可分成三個部份:定義問題、擬定行動方案與設立績效評估指標。

定義問題

定義問題是資料科學專案的第一步,也可能是走偏開始。由於每個人的工作內容不同,工作習慣與思惟模式不同,因此,必須在反覆討論中明確的定義問題,而資料科學家像哆啦A夢,必須在定義問題後給出適合的解決方案。

舉例來說,如果你在18世紀末問任何一個人,他需要什麼樣的交通工具,所有人都會說,「給我一匹更快的馬」,卻幾乎沒有人會說「給我一部汽車」,因為當時大部份的人仍不知道汽車是什麼。資料科學家掌握了較多的科技新知與方法論,就能夠給出車子這個選項。

如果我們再往後一百年,到了19世紀末,有個人說他需要一部汽車,他需要的真的是汽車嗎?他可能是個商人,真實需求是獲得市場上的最新消息,比起汽車,他其實更需要一部電話。

資料科學家也有自己的盲點在,「如果你手上有把錘子,看什麼都像釘子」,這是資料科學家的處境。如果你掌握了機器學習與深度學習的技能,是不是就應該把這些能力應用到每一個專案上呢?即使只是一次性的專案,也需要大費周章的建置模型嗎?

在定義問題的階段,確實需要大量的溝通,有時候已經明確定義了問題,卻又覺得某個環節的邏輯怪怪的。這時,最好的方式是不停的詢問「你的行動方案是什麼?」,也就是下個步驟。

擬定行動方案

除非是研究型專案,否則絕大多數的專案都應該要能產生行動方案(Action Plan),知識傳播並非最終目的,不能產生行動方案的專案幾乎等同一個沒有價值的專案,也可能是在定義問題階段就已經走錯方向,必須回到上一個步驟重新來過。

在大部份的專案中,做行動的人往往不會是資料科學家本人,這代表一百分的專案結果可能會因為執行率不良,最後只能創造四十分的商業價值。因此,在專案規劃階段,最好就可以預想所有可行的行動方案,是否需要進行跨團隊、跨部門溝通,當涉及的人越多,後續潛在的溝通成本也越高,尤其當資料科學家必須身兼PM的角色時,可能會分散資料科學家投入在技術面的時間。

以前面提到的簡訊行銷模型為例,這個專案的行動方案單純到不能再單純,和過去一樣發送簡訊即可,不會有任何的雜訊干擾,不需花費大量斡旋於溝通協調之中,以資料科學家的角度而言,這是個近乎完美的專案情境。


到ARON HACK網站看完整文章〈AI落地,資料科學專案的規劃、執行與商業影響力1 — 規劃篇



留言
avatar-img
留言分享你的想法!
avatar-img
ARON HACK 亞倫害的沙龍
23會員
34內容數
2024/10/24
pip和pipenv都是常用的Python套件管理工具,但它們的用途和運作方式略有不同。讓我們來看看它們的差異...
Thumbnail
2024/10/24
pip和pipenv都是常用的Python套件管理工具,但它們的用途和運作方式略有不同。讓我們來看看它們的差異...
Thumbnail
2024/10/24
許多大型語言模型(LLM)開始允許使用者將自己的資料餵進模型中,像是 OpenAI 的 ChatGPT 和 Anthropic 的 Claude。有了這個功能,你可以上傳你的部落格文章、程式碼或資料集來客製化模型的回應。在這篇文章中,你將學習如何從你的 WordPress 網站提取內容並餵給...
Thumbnail
2024/10/24
許多大型語言模型(LLM)開始允許使用者將自己的資料餵進模型中,像是 OpenAI 的 ChatGPT 和 Anthropic 的 Claude。有了這個功能,你可以上傳你的部落格文章、程式碼或資料集來客製化模型的回應。在這篇文章中,你將學習如何從你的 WordPress 網站提取內容並餵給...
Thumbnail
2024/10/24
CKIP-Transformer 是一個繁體中文的自然語言處理 (NLP) 模型,雖然速度偏慢,但是在切詞、詞性標記和命名實體識別等方面都有很優秀的表現。然而,CKIP-Transformer 的輸出並非完美無缺,有時需要額外的資料清理才能進行後續應用。
Thumbnail
2024/10/24
CKIP-Transformer 是一個繁體中文的自然語言處理 (NLP) 模型,雖然速度偏慢,但是在切詞、詞性標記和命名實體識別等方面都有很優秀的表現。然而,CKIP-Transformer 的輸出並非完美無缺,有時需要額外的資料清理才能進行後續應用。
Thumbnail
看更多
你可能也想看
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
  在之前的文章中,分享了我從公務員轉職到資料科學家的歷程,其中大大增加我履歷亮點的,就是大量的專案經驗,也就是大家稱的Side Project。這篇文章,想要分享Side Project為何、規模應該多大、方向怎麼找、在職期間怎麼找時間規劃完成自己的專案......等,希望可以給讀者一些更具體的想
Thumbnail
  在之前的文章中,分享了我從公務員轉職到資料科學家的歷程,其中大大增加我履歷亮點的,就是大量的專案經驗,也就是大家稱的Side Project。這篇文章,想要分享Side Project為何、規模應該多大、方向怎麼找、在職期間怎麼找時間規劃完成自己的專案......等,希望可以給讀者一些更具體的想
Thumbnail
創新是當前商業環境裏一個重要的話題,相信沒有任何一家企業的經營者會說創新對他不重要。但創新不是一件容易實現的事情,同時,許多企業沒有認真在激發創新,或是根本不具備創新的條件。總之,在我多年做企管諮詢的經驗裏,客戶探索創新的嘗試往往是失敗的。
Thumbnail
創新是當前商業環境裏一個重要的話題,相信沒有任何一家企業的經營者會說創新對他不重要。但創新不是一件容易實現的事情,同時,許多企業沒有認真在激發創新,或是根本不具備創新的條件。總之,在我多年做企管諮詢的經驗裏,客戶探索創新的嘗試往往是失敗的。
Thumbnail
這份難以言喻的成就感是催生這篇文章的主要原因,我想分享在專案規劃與數據分析技術上的經驗,並拆成為三個階段,分別為專案規劃、專案執行與成效評估,執行階段會著墨於程式設計面的分享。 專案規劃階段 定義問題 擬定行動方案
Thumbnail
這份難以言喻的成就感是催生這篇文章的主要原因,我想分享在專案規劃與數據分析技術上的經驗,並拆成為三個階段,分別為專案規劃、專案執行與成效評估,執行階段會著墨於程式設計面的分享。 專案規劃階段 定義問題 擬定行動方案
Thumbnail
資料科學的浪潮更將資料科學工作者推到第一線,許多產業都能看到「資料」的影子與可能性。但是對資料科學職涯有興趣的人,該怎麼知道「哪裡有適合自己的位置」並「據以規劃自己的資料科學職涯」呢?由於資料科學需求時常是個很龐大的任務,實際上會需要一個團隊來實現。本篇文章就從資料團隊出發,解析其中的任務內容、工作
Thumbnail
資料科學的浪潮更將資料科學工作者推到第一線,許多產業都能看到「資料」的影子與可能性。但是對資料科學職涯有興趣的人,該怎麼知道「哪裡有適合自己的位置」並「據以規劃自己的資料科學職涯」呢?由於資料科學需求時常是個很龐大的任務,實際上會需要一個團隊來實現。本篇文章就從資料團隊出發,解析其中的任務內容、工作
Thumbnail
數據分析的好,人人都知道。可以改善用戶體驗、找到肉眼無法注意的機會點、尋找新的商機、可以讓資源花在刀口上等等的族繁不及備載,所以大家會努力想著要找到能數據分析的人、方法、設備,讓自己的公司能夠藉著數據分析殺出一條活路、或是開出一條別人看不見的賽道。
Thumbnail
數據分析的好,人人都知道。可以改善用戶體驗、找到肉眼無法注意的機會點、尋找新的商機、可以讓資源花在刀口上等等的族繁不及備載,所以大家會努力想著要找到能數據分析的人、方法、設備,讓自己的公司能夠藉著數據分析殺出一條活路、或是開出一條別人看不見的賽道。
Thumbnail
從踏入職場以來,我的工作就跟大量的數據一直沾上邊,從台灣銀行業的數據,亞馬遜工廠的數據,到Flixbus的行銷數據,從營運,行銷到銷售的數據分析,小到「一天我管的團隊包裝了幾個包裹」,大到「一年高達上億的行銷預算分析」都有碰過,我一直在思索,到底需要怎麼樣的技能才能把這個工作做好?
Thumbnail
從踏入職場以來,我的工作就跟大量的數據一直沾上邊,從台灣銀行業的數據,亞馬遜工廠的數據,到Flixbus的行銷數據,從營運,行銷到銷售的數據分析,小到「一天我管的團隊包裝了幾個包裹」,大到「一年高達上億的行銷預算分析」都有碰過,我一直在思索,到底需要怎麼樣的技能才能把這個工作做好?
Thumbnail
最近的線上座談會中,有些朋友提出了一些問題,我相信有更多的人,同樣也會希望知道這些問題的答案。 不論你有沒有參與到座談會,也或許這些問題並不是你想問,或是你覺得有幫助的答案,但希望今天這篇文章能夠在 2020 年的一開頭,能夠帶給你一些啟發。
Thumbnail
最近的線上座談會中,有些朋友提出了一些問題,我相信有更多的人,同樣也會希望知道這些問題的答案。 不論你有沒有參與到座談會,也或許這些問題並不是你想問,或是你覺得有幫助的答案,但希望今天這篇文章能夠在 2020 年的一開頭,能夠帶給你一些啟發。
Thumbnail
在設計機器學習相關產品與服務時,必須瞭解它和一般軟體開發的不同、以及過程中獨特的優先順序與需求。前一篇中探討了機器學習產品開發時,專案經理必須具有的基礎認識和挑戰,本文則延續討論相關的產品管理須知。
Thumbnail
在設計機器學習相關產品與服務時,必須瞭解它和一般軟體開發的不同、以及過程中獨特的優先順序與需求。前一篇中探討了機器學習產品開發時,專案經理必須具有的基礎認識和挑戰,本文則延續討論相關的產品管理須知。
Thumbnail
測試驅動開發(Test-Driven Development, TDD)或是行為驅動開發(Behavioral-Driven Developement)是當代軟體工程裡面常見的方法論,然而以資料科學或是數據分析的專案來說,通常主要的「測試」會以模型的準確性或是資料分布的模式為核心
Thumbnail
測試驅動開發(Test-Driven Development, TDD)或是行為驅動開發(Behavioral-Driven Developement)是當代軟體工程裡面常見的方法論,然而以資料科學或是數據分析的專案來說,通常主要的「測試」會以模型的準確性或是資料分布的模式為核心
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News