數據分析專案的「預估」思維

更新於 發佈於 閱讀時間約 5 分鐘

數據分析師的工作包羅萬象,而在這些多樣化的任務中,「預估」是我蠻喜歡的一種專案類型,思考該做哪些假設才可以做出合理預估的過程蠻有趣的。

在這篇文章中,我會分享兩個我曾參與的預估專案,以及我的思考脈絡,希望可以對你們有所幫助。

專案一:預估歐洲區域的營收

專案背景

當時分析團隊的其中一個目標是找出可以優化用戶旅程(user journey)的方向。

由於我們公司是一家 B2B 企業,用戶旅程大致如下:

客戶訪問我們的網站 → 填寫意願表單 → 與業務預約會議 → 確認需求 → 付費

在分析用戶旅程的數據時,我們發現,儘管我們的主要客戶來自北美,但歐洲客戶的人均消費並不低於北美客戶,顯示他們是具有潛力的高價值客戶。

然而,歐洲客戶從完成意願表單到預約會議的「預約會議率」明顯低於北美客戶。

這個現象雖然對我們來說相當合理,因為我們的業務主要集中在美洲時區,歐洲客戶難以找到合適的預約時間,但考慮到歐洲客戶的高價值,讓我們開始思考,是否該為歐洲時區的客戶增加更多可預約會議的時間?如果這樣做,是否能帶來顯著的營收增長?

預估方法

專案的核心問題是:「如果歐洲客戶有足夠的可預約會議時段,會帶來多少營收?」,當這個營收夠大,我們就可以考慮增加歐洲客戶的可預約時段。

在思考這個問題時,我的思考脈絡是:

有足夠的可預約會議時段 → 預約會議率提升 → 和業務討論到需求的人數增加 → 營收增加

當問題被經過這樣的轉換後,要回答這個問題就變得簡單,只需要估計歐洲客戶的「合理預約會議率」,就可以往後計算出因應預約會議率提升,額外帶來的營收增長有多少。

而在估計歐洲客戶的合理預約會議率時,我們團隊選擇直接採用北美客戶的現有數據,作為歐洲客戶的合理預約會議率。

有了這個數值,再結合已知的歐洲客戶數量及人均付費金額,就可以估算出優化預約會議率後的歐洲客戶營收。

學習點

這個預估專案並不難,但需要注意的是「為什麼使用北美的預約會議率來預估歐洲客戶的預約會議率是合理的?」

這個做法背後隱含了一個假設:「北美客戶和歐洲客戶在與業務人員預約會議的行為上沒有太大差異」。

因為有了這個假設,我們才能使用北美客戶的預約會議率來預估歐洲客戶的預約會議率。

這點可以再往下延伸至「分群方法背後的假設」,在做分析時的每一種分群方式(性別、年齡、居住地區…等), 每一種分群方式背後都隱含著一個假設:「這個分群方法下的不同群體,在你想觀測的數據中,會有不同的特徵」。

當這個假設成立的時候,這個分群方式才是有意義的。

舉年齡來說:

在做付費的分析時,拆分年齡是個好方法,因為不同年齡層有不同的消費力及消費動機,因此在看數據時,將不同年齡層的數據拆開來看,可以讓我們對問題有更深刻的理解。

但對於一些年齡不會產生差距的題目來說(例如:人的手指數量),在分析時就沒必要拆分年齡,因為「這個分群方法下的不同群體,在你想觀測的數據中,會有不同的特徵」這個假設不成立,就算真的拆了,也高機率不會看到數據差異。

雖然手指數量是一個很爛的分析例子,但一時沒想到好的案例,所以先頂著用。


專案二:評估新店開幕對於既有店舖的影響

專案背景

當時的專案目標是想幫助一個實體零售商分析他們的業績表現。

他們在北部地區新開了第三間店,現在想知道這間新店的開幕是否對附近的兩間既有店舖造成了營收的影響。

預估方法

主要分析方法是比較「既有兩間店在不開新店情況下的預估營收」與「實際營收」之間的差距。如果實際營收低於預期營收,則可能表示新店搶走了一部分客戶。

在預估「既有兩間店在不開新店情況下的營收」時,較簡單的方法是以「前一年營收」結合「在沒有新店開幕情況下的預估成長率」來計算。預估成長率可以透過歷史成長率來預測。例如,如果過去每年業績成長10%,則預估今年也會成長10%。

但由於分析期間有「外在因素」影響到品牌,降低了消費者購買意願,因此如果我們直接用歷史成長率去估計,可能會高估,因此需要將「外在因素」納入預估。

為了考慮「外在因素」,我們將「在沒有新店開幕情況下的預估成長率」拆解為「受到外在因素影響的南部店舖成長率」以及「南部和北部成長率的相對關係」。在我們假設南部和北部的成長率有穩定關係的情況下(例如:南部成長20%,北部成長率通常為一半,即10%),即可根據南部成長率和兩者間的關係,預估受到外在影響下北部的營收成長率。

具體案例

以下是一個具體的例子:

  1. 南部店舖受外在因素下的實際成長率:25%
  2. 北部店鋪預期成長率(假設為南部成長率的一半):12.5%
  3. 北部既有兩店在不開新店的預期營收:200萬美元 * 1.125 = 225萬美元
  4. 北部既有兩店的實際營收:220萬美元
  5. 潛在損失評估:225萬美元 - 220萬美元 = 5萬美元

學習點

這個專案的挑戰在於如何將「外在因素」納入預估算法中。因為我們很難估計外在因素究竟對成長率會有多大影響,因此我們改變方式,不去預估外在因素帶來的影響,而是直接拿「已經受影響的南部店舖表現」去預估北部店舖表現,就可以把外在因素加到預估算法中。

在透過南部店舖成長率去預估北部店舖成長率時,我們基於的假設是「兩個地區的成長率有穩定關係」,且「外在因素對北部與南部的影響相同」,不會破壞兩者間的關係。

如果上述兩個假設有任一個不成立,這樣的預估方式可能就會失準。


看到這裡你可能有發現,「假設」這個詞在整篇文章出現了很多次,而「假設」確實也是我認為在預估過程中很重要的事。

有了假設,我們才能確定數值範圍的合理性。

同時,在團隊內部討論預估結果時,可以基於假設討論其合理性,而非單純依數字大小拍腦袋決定過高過低,會讓討論更有效率。


謝謝你看到這邊,如果你看完文章後有任何想法或建議,都很歡迎在留言區提出分享!或是歡迎加我的 Linkedin 與我交流

avatar-img
1會員
10內容數
紀錄從事數據分析工作的心得與生活所學
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
數據分析師的雜談 的其他內容
好的數據分析師要能做到釐清合作方需求、拆解問題並用數字詮釋問題、解釋分析結果以及寫出好維護的 SQL
好的數據分析師要能做到釐清合作方需求、拆解問題並用數字詮釋問題、解釋分析結果以及寫出好維護的 SQL
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
數據驅動的專案管理如何提升決策質量,涵蓋數據收集與管理、數據分析策略、實際應用技巧,以及面臨的挑戰和解決方案。通過描述性分析、診斷性分析、預測性分析和規範性分析,專案經理能夠優化資源分配、進度管理和風險控制,確保專案順利進行。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
本篇週報記錄了數據分析師最近一週的重要工作內容,包括種族與性別分析、Amazon市場分析、購買人群統計資訊及 SEO 品牌字分組等等。透過以上議題的分析與執行過程,不僅能瞭解工作內容,也能學到數據分析的實戰議題,有助於減少行銷和數據分析方面的學習彎路。
做研究時,總會擔心計算資源不足的問題。 但是其實,你想做的研究計畫,其預期產生的價值, 跟你所能獲得的計算資源規模,是直接相關的。 人如果在業界,但是無法參與公司的核心研究組, 無法做預期價值夠大的研究計畫,也是拿不到公司的計算資源。
Thumbnail
本文討論如何利用數據來判斷金融盤勢。重點關注非農就業指數(NFP)、採購經理人指數(PMI)、失業率、消費者物價指數(CPI)等相關重要數據,並提供相關數據公佈時間,以及例子操作模式。文章還著重於數據對交易者決策和交易策略的影響。
Thumbnail
作為一名擁有多年經驗的數據分析師,我深知數據分析的重要性及其對企業決策的影響。然而,數據分析並不是在任何情況下都適用。今天我想跟你聊的事情是:在數據量不足或缺乏流程優化目的時,進行數據分析的局限性。
做研究時,總會擔心計算資源不足的問題。 但是其實,你想做的研究計畫,其預期產生的價值, 跟你所能獲得的計算資源規模,是直接相關的。 人如果在業界,但是無法參與公司的核心研究組, 無法做預期價值夠大的研究計畫,也是拿不到公司的計算資源。 人如果在學界,但是能夠建立起預期社
Thumbnail
本篇文章分享從製作數據分析報告到PPT簡報技巧,內容包括數據分析報告的構成要素、主體的清晰邏輯設定,以及製作精準PPT簡報的方法。提供從製作報告的過程到提升製作效率的建議,適合初入職場的數據分析新人們參考喔~
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
數據驅動的專案管理如何提升決策質量,涵蓋數據收集與管理、數據分析策略、實際應用技巧,以及面臨的挑戰和解決方案。通過描述性分析、診斷性分析、預測性分析和規範性分析,專案經理能夠優化資源分配、進度管理和風險控制,確保專案順利進行。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
本篇週報記錄了數據分析師最近一週的重要工作內容,包括種族與性別分析、Amazon市場分析、購買人群統計資訊及 SEO 品牌字分組等等。透過以上議題的分析與執行過程,不僅能瞭解工作內容,也能學到數據分析的實戰議題,有助於減少行銷和數據分析方面的學習彎路。
做研究時,總會擔心計算資源不足的問題。 但是其實,你想做的研究計畫,其預期產生的價值, 跟你所能獲得的計算資源規模,是直接相關的。 人如果在業界,但是無法參與公司的核心研究組, 無法做預期價值夠大的研究計畫,也是拿不到公司的計算資源。
Thumbnail
本文討論如何利用數據來判斷金融盤勢。重點關注非農就業指數(NFP)、採購經理人指數(PMI)、失業率、消費者物價指數(CPI)等相關重要數據,並提供相關數據公佈時間,以及例子操作模式。文章還著重於數據對交易者決策和交易策略的影響。
Thumbnail
作為一名擁有多年經驗的數據分析師,我深知數據分析的重要性及其對企業決策的影響。然而,數據分析並不是在任何情況下都適用。今天我想跟你聊的事情是:在數據量不足或缺乏流程優化目的時,進行數據分析的局限性。
做研究時,總會擔心計算資源不足的問題。 但是其實,你想做的研究計畫,其預期產生的價值, 跟你所能獲得的計算資源規模,是直接相關的。 人如果在業界,但是無法參與公司的核心研究組, 無法做預期價值夠大的研究計畫,也是拿不到公司的計算資源。 人如果在學界,但是能夠建立起預期社
Thumbnail
本篇文章分享從製作數據分析報告到PPT簡報技巧,內容包括數據分析報告的構成要素、主體的清晰邏輯設定,以及製作精準PPT簡報的方法。提供從製作報告的過程到提升製作效率的建議,適合初入職場的數據分析新人們參考喔~