AI落地，資料科學專案的規劃、執行與商業影響力1 - 規劃篇

更新於 2025/02/26發佈於 2022/02/27閱讀時間約 6 分鐘

從2021年9月底開始，我規劃了一個資料科學專案，試著用機器學習模型提升簡訊行銷活動的成效。過去，這類型的行銷活動通常是由領域專家(Domain Expert)根據消費者行為、促銷主題等條件，篩選出具有消費潛力的顧客，並進行簡訊發送，這是零售業行之有年的作法。簡訊行銷看似小道，但裡面還有金礦可挖。專案以A/B測試的方式進行，以模型預測組為A組，人為篩選組為B組，兩組依照各自的方式挑選出簡訊寄送名單，並在檔期結束之後比較績效。這個專案從11月份開始執行，進行6次的測試，戰況一度殺得難分難解，我的模型也經歷了數次迭代，納入更多面向的資料。

2022年2月7日，農曆年後第一個上班日，我結算了第7次的活動成效，結果A組的投資報酬率(ROI)遙遙領先17%！當進一步計算增加的毛利額時，我再次驚訝的發現，這個金額已經超過我年薪的15倍，而這個檔期的時間僅僅8天！爾後的幾次活動，A組的ROI穩定領先20-35%，即使是規模較小的活動，簡訊的發送數量較少，毛利額也能達到我年薪的30%。

這個數字太漂亮，漂亮到甚至會讓人疑惑，「有些顧客有固定的消費周期，即使不提供促銷資訊給他們，他們還是會回購呀！」這個論點十分合理，但基於以下兩個原因，這個疑問可以直接被忽略。首先，站在廣告投放者的角度，我們本來就不可能判定顧客是自發性購物，還是看到廣告內容才購物，甚至顧客本人可能都說不清楚，無法簡單的收集資料是第一個難題。其次，持續與忠實顧客保持互動是品牌經營與CRM的重要環節，而且每封簡訊的發送費用不到1元，比起顧客的消費金額，這些費用根本不足掛齒。總結來說，上述疑慮確實存在，但沒有驗證的必要。即使將數字砍半，也還是相當讓人驕傲的績效。

這份難以言喻的成就感是催生這篇文章的主要原因，我想分享在專案規劃與數據分析技術上的經驗，並拆成為三個階段，分別為專案規劃、專案執行與成效評估，執行階段會著墨於程式設計面的分享。

另外，由於每間公司的數據團隊規模大小不一，分工較細的團隊通常會包含資料工程師、PM等職位，但為了避於文字敘述上過於混亂，這篇文章統一用資料科學家作代表，這確實也符合我在工作上的真實情況。

專案規劃階段

我在2021年10月參加SAS線上研討會時，SAS的顧問提到，有8成的預測模型在開發後都沒有落地，VentureBeat上也有一篇文章〈Why do 87% of data science projects never make it into production?〉，光看標題就可以知道，有87%的資料科學專案都無疾而終，沒能貢獻商業價值。專案夭折的原因當然綜縱複雜，不能一概而論，但可以確定的是，在討論資料清理、演算法挑選、模型建置、參數調校等技術問題之前，專案規劃的品質就能很大程度的決定是否夭折。是的，不能決定是否成功，只能決定是否夭折。那什麼樣的專案才算是一個好的專案？我認為第一個條件是能幫公司獲利，第二個條件是能用數字證明增加的利潤是歸功於這個數據分析專案。說起來容易，但過程卻是困難重重，其中又可分成三個部份：定義問題、擬定行動方案與設立績效評估指標。

定義問題

定義問題是資料科學專案的第一步，也可能是走偏開始。由於每個人的工作內容不同，工作習慣與思惟模式不同，因此，必須在反覆討論中明確的定義問題，而資料科學家像哆啦A夢，必須在定義問題後給出適合的解決方案。

舉例來說，如果你在18世紀末問任何一個人，他需要什麼樣的交通工具，所有人都會說，「給我一匹更快的馬」，卻幾乎沒有人會說「給我一部汽車」，因為當時大部份的人仍不知道汽車是什麼。資料科學家掌握了較多的科技新知與方法論，就能夠給出車子這個選項。

如果我們再往後一百年，到了19世紀末，有個人說他需要一部汽車，他需要的真的是汽車嗎？他可能是個商人，真實需求是獲得市場上的最新消息，比起汽車，他其實更需要一部電話。

資料科學家也有自己的盲點在，「如果你手上有把錘子，看什麼都像釘子」，這是資料科學家的處境。如果你掌握了機器學習與深度學習的技能，是不是就應該把這些能力應用到每一個專案上呢？即使只是一次性的專案，也需要大費周章的建置模型嗎？

在定義問題的階段，確實需要大量的溝通，有時候已經明確定義了問題，卻又覺得某個環節的邏輯怪怪的。這時，最好的方式是不停的詢問「你的行動方案是什麼？」，也就是下個步驟。

擬定行動方案

除非是研究型專案，否則絕大多數的專案都應該要能產生行動方案(Action Plan)，知識傳播並非最終目的，不能產生行動方案的專案幾乎等同一個沒有價值的專案，也可能是在定義問題階段就已經走錯方向，必須回到上一個步驟重新來過。

在大部份的專案中，做行動的人往往不會是資料科學家本人，這代表一百分的專案結果可能會因為執行率不良，最後只能創造四十分的商業價值。因此，在專案規劃階段，最好就可以預想所有可行的行動方案，是否需要進行跨團隊、跨部門溝通，當涉及的人越多，後續潛在的溝通成本也越高，尤其當資料科學家必須身兼PM的角色時，可能會分散資料科學家投入在技術面的時間。

以前面提到的簡訊行銷模型為例，這個專案的行動方案單純到不能再單純，和過去一樣發送簡訊即可，不會有任何的雜訊干擾，不需花費大量斡旋於溝通協調之中，以資料科學家的角度而言，這是個近乎完美的專案情境。

到ARON HACK網站看完整文章〈AI落地，資料科學專案的規劃、執行與商業影響力1 — 規劃篇〉

留言

留言分享你的想法！

ARON HACK 亞倫害的沙龍

23會員

34內容數

ARON HACK 亞倫害的沙龍的其他內容

2024/10/24

Python Pip/Pipenv 套件管理工具詳解與常用指令

pip和pipenv都是常用的Python套件管理工具，但它們的用途和運作方式略有不同。讓我們來看看它們的差異...

2024/10/24

Python Pip/Pipenv 套件管理工具詳解與常用指令

pip和pipenv都是常用的Python套件管理工具，但它們的用途和運作方式略有不同。讓我們來看看它們的差異...

2024/10/24

使用WordPress文章訓練大型語言模型

許多大型語言模型（LLM）開始允許使用者將自己的資料餵進模型中，像是 OpenAI 的 ChatGPT 和 Anthropic 的 Claude。有了這個功能，你可以上傳你的部落格文章、程式碼或資料集來客製化模型的回應。在這篇文章中，你將學習如何從你的 WordPress 網站提取內容並餵給...

2024/10/24

使用WordPress文章訓練大型語言模型

2024/10/24

清理CKIP-Transformer輸出結果的技巧與程式範例

CKIP-Transformer 是一個繁體中文的自然語言處理 (NLP) 模型，雖然速度偏慢，但是在切詞、詞性標記和命名實體識別等方面都有很優秀的表現。然而，CKIP-Transformer 的輸出並非完美無缺，有時需要額外的資料清理才能進行後續應用。

2024/10/24

清理CKIP-Transformer輸出結果的技巧與程式範例

看更多

你可能也想看

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

每年4月、5月都是最多稅要繳的月份，當然大部份的人都是有機會繳到「綜合所得稅」，只是相當相當多人還不知道，原來繳給政府的稅！可以透過一些有活動的銀行信用卡或電子支付來繳，從繳費中賺一點點小確幸！就是賺個１%~2%大家也是很開心的，因為你們把沒回饋變成有回饋，就是用卡的最高境界所得稅線上申報

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

科技巨頭解碼

NVDA 25Q1 財報 - 扣除中國因素，輝達的前方仍然沒有烏雲 | #276

全球科技產業的焦點，AKA 全村的希望 NVIDIA，於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1，實際日曆期間為今年二到四月)，交出了打敗了市場預期的成績單。然而，在銷售持續高速成長的同時，川普政府加大對於中國的晶片管制......

#NVDA#NVIDIA#輝達

2025/06/18

科技巨頭解碼

NVDA 25Q1 財報 - 扣除中國因素，輝達的前方仍然沒有烏雲 | #276

#NVDA#NVIDIA#輝達

2025/06/18

美股 Insight

6月Fed會議：略為鷹派收斂2026、2027年降息預期，繼續維持高利率更長時間的觀望態度

重點摘要： 6 月繼續維持基準利率不變，強調維持高利率主因為關稅點陣圖表現略為鷹派，收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變，強調需要維持高利率是因為關稅：聯準會 (Fed) 召開 6 月利率會議

#Fed#聯準會#美股

2025/06/18

美股 Insight

6月Fed會議：略為鷹派收斂2026、2027年降息預期，繼續維持高利率更長時間的觀望態度

#Fed#聯準會#美股

2025/06/18

Fann的沙龍

踏入數據分析領域必備：Side Project的準備

　　在之前的文章中，分享了我從公務員轉職到資料科學家的歷程，其中大大增加我履歷亮點的，就是大量的專案經驗，也就是大家稱的Side Project。這篇文章，想要分享Side Project為何、規模應該多大、方向怎麼找、在職期間怎麼找時間規劃完成自己的專案......等，希望可以給讀者一些更具體的想

#專案#ChatGPT#程式

2023/07/06

Fann的沙龍

踏入數據分析領域必備：Side Project的準備

#專案#ChatGPT#程式

2023/07/06

Allen的沙龍

商業創新系列一：創新為什麼就是那麼困難？

創新是當前商業環境裏一個重要的話題，相信沒有任何一家企業的經營者會說創新對他不重要。但創新不是一件容易實現的事情，同時，許多企業沒有認真在激發創新，或是根本不具備創新的條件。總之，在我多年做企管諮詢的經驗裏，客戶探索創新的嘗試往往是失敗的。

2022/11/02

2022/11/02

AI落地，資料科學專案的規劃、執行與商業影響力1 - 規劃篇

這份難以言喻的成就感是催生這篇文章的主要原因，我想分享在專案規劃與數據分析技術上的經驗，並拆成為三個階段，分別為專案規劃、專案執行與成效評估，執行階段會著墨於程式設計面的分享。專案規劃階段定義問題擬定行動方案

#資料科學#數據分析#python

2022/02/27

ARON HACK 亞倫害的沙龍

AI落地，資料科學專案的規劃、執行與商業影響力1 - 規劃篇

#資料科學#數據分析#python

2022/02/27

張維元的沙龍

資料科學團隊的角色與配置

資料科學的浪潮更將資料科學工作者推到第一線，許多產業都能看到「資料」的影子與可能性。但是對資料科學職涯有興趣的人，該怎麼知道「哪裡有適合自己的位置」並「據以規劃自己的資料科學職涯」呢？由於資料科學需求時常是個很龐大的任務，實際上會需要一個團隊來實現。本篇文章就從資料團隊出發，解析其中的任務內容、工作

2022/01/30