AI落地,資料科學專案的規劃、執行與商業影響力1 - 規劃篇

閱讀時間約 5 分鐘
從2021年9月底開始,我規劃了一個資料科學專案,試著用機器學習模型提升簡訊行銷活動的成效。過去,這類型的行銷活動通常是由領域專家(Domain Expert)根據消費者行為、促銷主題等條件,篩選出具有消費潛力的顧客,並進行簡訊發送,這是零售業行之有年的作法。簡訊行銷看似小道,但裡面還有金礦可挖。專案以A/B測試的方式進行,以模型預測組為A組,人為篩選組為B組,兩組依照各自的方式挑選出簡訊寄送名單,並在檔期結束之後比較績效。這個專案從11月份開始執行,進行6次的測試,戰況一度殺得難分難解,我的模型也經歷了數次迭代,納入更多面向的資料。
2022年2月7日,農曆年後第一個上班日,我結算了第7次的活動成效,結果A組的投資報酬率(ROI)遙遙領先17%!當進一步計算增加的毛利額時,我再次驚訝的發現,這個金額已經超過我年薪的15倍,而這個檔期的時間僅僅8天!爾後的幾次活動,A組的ROI穩定領先20-35%,即使是規模較小的活動,簡訊的發送數量較少,毛利額也能達到我年薪的30%。
這個數字太漂亮,漂亮到甚至會讓人疑惑,「有些顧客有固定的消費周期,即使不提供促銷資訊給他們,他們還是會回購呀!」這個論點十分合理,但基於以下兩個原因,這個疑問可以直接被忽略。首先,站在廣告投放者的角度,我們本來就不可能判定顧客是自發性購物,還是看到廣告內容才購物,甚至顧客本人可能都說不清楚,無法簡單的收集資料是第一個難題。其次,持續與忠實顧客保持互動是品牌經營與CRM的重要環節,而且每封簡訊的發送費用不到1元,比起顧客的消費金額,這些費用根本不足掛齒。總結來說,上述疑慮確實存在,但沒有驗證的必要。即使將數字砍半,也還是相當讓人驕傲的績效。
這份難以言喻的成就感是催生這篇文章的主要原因,我想分享在專案規劃與數據分析技術上的經驗,並拆成為三個階段,分別為專案規劃、專案執行與成效評估,執行階段會著墨於程式設計面的分享。
另外,由於每間公司的數據團隊規模大小不一,分工較細的團隊通常會包含資料工程師、PM等職位,但為了避於文字敘述上過於混亂,這篇文章統一用資料科學家作代表,這確實也符合我在工作上的真實情況。

專案規劃階段

我在2021年10月參加SAS線上研討會時,SAS的顧問提到,有8成的預測模型在開發後都沒有落地,VentureBeat上也有一篇文章〈Why do 87% of data science projects never make it into production?〉,光看標題就可以知道,有87%的資料科學專案都無疾而終,沒能貢獻商業價值。專案夭折的原因當然綜縱複雜,不能一概而論,但可以確定的是,在討論資料清理、演算法挑選、模型建置、參數調校等技術問題之前,專案規劃的品質就能很大程度的決定是否夭折。是的,不能決定是否成功,只能決定是否夭折。那什麼樣的專案才算是一個好的專案?我認為第一個條件是能幫公司獲利,第二個條件是能用數字證明增加的利潤是歸功於這個數據分析專案。說起來容易,但過程卻是困難重重,其中又可分成三個部份:定義問題、擬定行動方案與設立績效評估指標。

定義問題

定義問題是資料科學專案的第一步,也可能是走偏開始。由於每個人的工作內容不同,工作習慣與思惟模式不同,因此,必須在反覆討論中明確的定義問題,而資料科學家像哆啦A夢,必須在定義問題後給出適合的解決方案。
舉例來說,如果你在18世紀末問任何一個人,他需要什麼樣的交通工具,所有人都會說,「給我一匹更快的馬」,卻幾乎沒有人會說「給我一部汽車」,因為當時大部份的人仍不知道汽車是什麼。資料科學家掌握了較多的科技新知與方法論,就能夠給出車子這個選項。
如果我們再往後一百年,到了19世紀末,有個人說他需要一部汽車,他需要的真的是汽車嗎?他可能是個商人,真實需求是獲得市場上的最新消息,比起汽車,他其實更需要一部電話。
資料科學家也有自己的盲點在,「如果你手上有把錘子,看什麼都像釘子」,這是資料科學家的處境。如果你掌握了機器學習與深度學習的技能,是不是就應該把這些能力應用到每一個專案上呢?即使只是一次性的專案,也需要大費周章的建置模型嗎?
在定義問題的階段,確實需要大量的溝通,有時候已經明確定義了問題,卻又覺得某個環節的邏輯怪怪的。這時,最好的方式是不停的詢問「你的行動方案是什麼?」,也就是下個步驟。

擬定行動方案

除非是研究型專案,否則絕大多數的專案都應該要能產生行動方案(Action Plan),知識傳播並非最終目的,不能產生行動方案的專案幾乎等同一個沒有價值的專案,也可能是在定義問題階段就已經走錯方向,必須回到上一個步驟重新來過。
在大部份的專案中,做行動的人往往不會是資料科學家本人,這代表一百分的專案結果可能會因為執行率不良,最後只能創造四十分的商業價值。因此,在專案規劃階段,最好就可以預想所有可行的行動方案,是否需要進行跨團隊、跨部門溝通,當涉及的人越多,後續潛在的溝通成本也越高,尤其當資料科學家必須身兼PM的角色時,可能會分散資料科學家投入在技術面的時間。
以前面提到的簡訊行銷模型為例,這個專案的行動方案單純到不能再單純,和過去一樣發送簡訊即可,不會有任何的雜訊干擾,不需花費大量斡旋於溝通協調之中,以資料科學家的角度而言,這是個近乎完美的專案情境。

為什麼會看到廣告
留言0
查看全部
發表第一個留言支持創作者!
對於資料科學家和數據分析師來說,雖然他們也寫程式,但他們寫程式的習慣和一般認知的工程師不太相同,甚至有些人對於寫code的背景知識明顯不足。或許你會說,「因為現在很多做數據分析的都不是本科系,理論知識當然不會那麼紮實」,我認同這是個可能的原因,但我也認為這不能當成藉口,一個專業工作者本來就應該補足自
由於資料科學家與數據分析部門出現的時間還不長,大家的認知仍有差異,或因為每間公司核心價價、管理哲學不同,導致數據團隊可能會以各種型式存在,常見的型式有三種:獨立部門、隸屬IT(Information Technology,資訊部門)或RD(Research & Development,軟體開發)
雖然數據分析師是新職位,但數據分析或是資料分析的概念一點都不新。公司裡面行之有年的職位,不管是行銷、業務、採購、倉管,每個職位都需要數據,也都需要分析。隨著大數據、資料科學、機器學習、AI等酷炫的新名詞、新技術與新應用出現,所需的知識與技能多到員工爆肝也學不完。
我之所以大膽的把股價預測稱之為「最強」,因為這本身就是一個可以變現的專案,並且可以同時累積數據分析及投資操作經驗,在投資與程式設計同時躍升為顯學的時代,把這兩條學習路徑融合在一起,似乎自然而然,也合情合理。當然,這條路的學習成本非常高,但翻山越嶺之後的美景也同樣讓人心神嚮往。
網路上可以找到許多關於寫作的書或課程,說明為什麼寫作可以培養表達能力與邏輯思考能力,以及培養寫作能力的具體方法。然而,許多人更關心的是,如果我們想以寫作當成事業,是不是可行,需要具備哪些知識,有沒有技術門檻,可能需要多少成本,以及有哪些潛在的收入來源。
Fugle富果是一間FinTech新創公司,透過大數據搜尋和機器學習推薦技術,協助投資人可以更快速精確的做出決策,並且與玉山證券合作,推出玉山證券富果帳戶。
對於資料科學家和數據分析師來說,雖然他們也寫程式,但他們寫程式的習慣和一般認知的工程師不太相同,甚至有些人對於寫code的背景知識明顯不足。或許你會說,「因為現在很多做數據分析的都不是本科系,理論知識當然不會那麼紮實」,我認同這是個可能的原因,但我也認為這不能當成藉口,一個專業工作者本來就應該補足自
由於資料科學家與數據分析部門出現的時間還不長,大家的認知仍有差異,或因為每間公司核心價價、管理哲學不同,導致數據團隊可能會以各種型式存在,常見的型式有三種:獨立部門、隸屬IT(Information Technology,資訊部門)或RD(Research & Development,軟體開發)
雖然數據分析師是新職位,但數據分析或是資料分析的概念一點都不新。公司裡面行之有年的職位,不管是行銷、業務、採購、倉管,每個職位都需要數據,也都需要分析。隨著大數據、資料科學、機器學習、AI等酷炫的新名詞、新技術與新應用出現,所需的知識與技能多到員工爆肝也學不完。
我之所以大膽的把股價預測稱之為「最強」,因為這本身就是一個可以變現的專案,並且可以同時累積數據分析及投資操作經驗,在投資與程式設計同時躍升為顯學的時代,把這兩條學習路徑融合在一起,似乎自然而然,也合情合理。當然,這條路的學習成本非常高,但翻山越嶺之後的美景也同樣讓人心神嚮往。
網路上可以找到許多關於寫作的書或課程,說明為什麼寫作可以培養表達能力與邏輯思考能力,以及培養寫作能力的具體方法。然而,許多人更關心的是,如果我們想以寫作當成事業,是不是可行,需要具備哪些知識,有沒有技術門檻,可能需要多少成本,以及有哪些潛在的收入來源。
Fugle富果是一間FinTech新創公司,透過大數據搜尋和機器學習推薦技術,協助投資人可以更快速精確的做出決策,並且與玉山證券合作,推出玉山證券富果帳戶。
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Prompt Engineering 是一門藝術和科學,它精心設計有效的提示,以從人工智慧模型中誘發所需
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - Prompt Engineering - 13中,提及Prompt Engine
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 2017 年 12 月,Google Brain 和 Google Research 發表了 Vaswani 等人的開創性論文《Attention Is All You
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從AI說書 - 從0開始 - 0到AI說書 - 從0開始 - 35,我們完成書籍:Transformers for Natural Language Processin
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從AI說書 - 從0開始 - 0到AI說書 - 從0開始 - 34,我們談了許多 Transformer 議題,以下來做條列性結論: Transformer 迫使人工
Thumbnail
人工智能是研究如何通過智能的硬件和軟件來完成通常需要人類智慧才能完成的任務。
Thumbnail
☆2019美國「鸚鵡螺圖書獎」獲獎書籍☆ ☆普立茲獎得主《第六次大滅絕》作者 伊麗莎白‧寇伯特激賞之書☆ ☆亞馬遜書店逾兩百則評價,讀者平均四點六顆星好評推薦☆ ➢➢嚴峻的氣候與環境挑戰當前,全球糧食危機迫在眉睫, 想要繼續餵飽全世界,就得在傳統與與創新間找出「第三條路」!
Thumbnail
前言 前陣子看到臉書與PTT有人分享台北有財神廟推出可以幫你用AI人工智慧預測未來股價的APP,在留言區造成很多網友的迴響,連我也覺得十分酷炫。(但有網友質疑APP程式來源的真偽性,我在 GOOGLE地圖上也查不到台北有這間廟,不建議大家下載使用) 其實AI人工智慧投資早已不是新聞,在國外早有許多
Thumbnail
我們藉由探討美國2013年、2015年Authors Guild v. Google, Inc.案例中的法律概念,來研究Google圖書搜索計畫/Google Book Search是否構成合理使用,進而援引適用在諸如微軟小冰這樣的創造型AI是否也構成合理使用。
Thumbnail
AI機器學習從訓練資料數據集Dataset開始,至AI產出的output,所有過程舉凡:資料數據集的重製、中間步驟的重製、模型的非文義性重製,皆有重製行為,是否構成侵權?
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Prompt Engineering 是一門藝術和科學,它精心設計有效的提示,以從人工智慧模型中誘發所需
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - Prompt Engineering - 13中,提及Prompt Engine
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 2017 年 12 月,Google Brain 和 Google Research 發表了 Vaswani 等人的開創性論文《Attention Is All You
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從AI說書 - 從0開始 - 0到AI說書 - 從0開始 - 35,我們完成書籍:Transformers for Natural Language Processin
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從AI說書 - 從0開始 - 0到AI說書 - 從0開始 - 34,我們談了許多 Transformer 議題,以下來做條列性結論: Transformer 迫使人工
Thumbnail
人工智能是研究如何通過智能的硬件和軟件來完成通常需要人類智慧才能完成的任務。
Thumbnail
☆2019美國「鸚鵡螺圖書獎」獲獎書籍☆ ☆普立茲獎得主《第六次大滅絕》作者 伊麗莎白‧寇伯特激賞之書☆ ☆亞馬遜書店逾兩百則評價,讀者平均四點六顆星好評推薦☆ ➢➢嚴峻的氣候與環境挑戰當前,全球糧食危機迫在眉睫, 想要繼續餵飽全世界,就得在傳統與與創新間找出「第三條路」!
Thumbnail
前言 前陣子看到臉書與PTT有人分享台北有財神廟推出可以幫你用AI人工智慧預測未來股價的APP,在留言區造成很多網友的迴響,連我也覺得十分酷炫。(但有網友質疑APP程式來源的真偽性,我在 GOOGLE地圖上也查不到台北有這間廟,不建議大家下載使用) 其實AI人工智慧投資早已不是新聞,在國外早有許多
Thumbnail
我們藉由探討美國2013年、2015年Authors Guild v. Google, Inc.案例中的法律概念,來研究Google圖書搜索計畫/Google Book Search是否構成合理使用,進而援引適用在諸如微軟小冰這樣的創造型AI是否也構成合理使用。
Thumbnail
AI機器學習從訓練資料數據集Dataset開始,至AI產出的output,所有過程舉凡:資料數據集的重製、中間步驟的重製、模型的非文義性重製,皆有重製行為,是否構成侵權?