數據分析師的工作包羅萬象,而在這些多樣化的任務中,「預估」是我蠻喜歡的一種專案類型,思考該做哪些假設才可以做出合理預估的過程蠻有趣的。
在這篇文章中,我會分享兩個我曾參與的預估專案,以及我的思考脈絡,希望可以對你們有所幫助。
當時分析團隊的其中一個目標是找出可以優化用戶旅程(user journey)的方向。
由於我們公司是一家 B2B 企業,用戶旅程大致如下:
客戶訪問我們的網站 → 填寫意願表單 → 與業務預約會議 → 確認需求 → 付費
在分析用戶旅程的數據時,我們發現,儘管我們的主要客戶來自北美,但歐洲客戶的人均消費並不低於北美客戶,顯示他們是具有潛力的高價值客戶。
然而,歐洲客戶從完成意願表單到預約會議的「預約會議率」明顯低於北美客戶。
這個現象雖然對我們來說相當合理,因為我們的業務主要集中在美洲時區,歐洲客戶難以找到合適的預約時間,但考慮到歐洲客戶的高價值,讓我們開始思考,是否該為歐洲時區的客戶增加更多可預約會議的時間?如果這樣做,是否能帶來顯著的營收增長?
專案的核心問題是:「如果歐洲客戶有足夠的可預約會議時段,會帶來多少營收?」,當這個營收夠大,我們就可以考慮增加歐洲客戶的可預約時段。
在思考這個問題時,我的思考脈絡是:
有足夠的可預約會議時段 → 預約會議率提升 → 和業務討論到需求的人數增加 → 營收增加
當問題被經過這樣的轉換後,要回答這個問題就變得簡單,只需要估計歐洲客戶的「合理預約會議率」,就可以往後計算出因應預約會議率提升,額外帶來的營收增長有多少。
而在估計歐洲客戶的合理預約會議率時,我們團隊選擇直接採用北美客戶的現有數據,作為歐洲客戶的合理預約會議率。
有了這個數值,再結合已知的歐洲客戶數量及人均付費金額,就可以估算出優化預約會議率後的歐洲客戶營收。
這個預估專案並不難,但需要注意的是「為什麼使用北美的預約會議率來預估歐洲客戶的預約會議率是合理的?」
這個做法背後隱含了一個假設:「北美客戶和歐洲客戶在與業務人員預約會議的行為上沒有太大差異」。
因為有了這個假設,我們才能使用北美客戶的預約會議率來預估歐洲客戶的預約會議率。
這點可以再往下延伸至「分群方法背後的假設」,在做分析時的每一種分群方式(性別、年齡、居住地區…等), 每一種分群方式背後都隱含著一個假設:「這個分群方法下的不同群體,在你想觀測的數據中,會有不同的特徵」。
當這個假設成立的時候,這個分群方式才是有意義的。
舉年齡來說:
在做付費的分析時,拆分年齡是個好方法,因為不同年齡層有不同的消費力及消費動機,因此在看數據時,將不同年齡層的數據拆開來看,可以讓我們對問題有更深刻的理解。
但對於一些年齡不會產生差距的題目來說(例如:人的手指數量),在分析時就沒必要拆分年齡,因為「這個分群方法下的不同群體,在你想觀測的數據中,會有不同的特徵」這個假設不成立,就算真的拆了,也高機率不會看到數據差異。
雖然手指數量是一個很爛的分析例子,但一時沒想到好的案例,所以先頂著用。
當時的專案目標是想幫助一個實體零售商分析他們的業績表現。
他們在北部地區新開了第三間店,現在想知道這間新店的開幕是否對附近的兩間既有店舖造成了營收的影響。
主要分析方法是比較「既有兩間店在不開新店情況下的預估營收」與「實際營收」之間的差距。如果實際營收低於預期營收,則可能表示新店搶走了一部分客戶。
在預估「既有兩間店在不開新店情況下的營收」時,較簡單的方法是以「前一年營收」結合「在沒有新店開幕情況下的預估成長率」來計算。預估成長率可以透過歷史成長率來預測。例如,如果過去每年業績成長10%,則預估今年也會成長10%。
但由於分析期間有「外在因素」影響到品牌,降低了消費者購買意願,因此如果我們直接用歷史成長率去估計,可能會高估,因此需要將「外在因素」納入預估。
為了考慮「外在因素」,我們將「在沒有新店開幕情況下的預估成長率」拆解為「受到外在因素影響的南部店舖成長率」以及「南部和北部成長率的相對關係」。在我們假設南部和北部的成長率有穩定關係的情況下(例如:南部成長20%,北部成長率通常為一半,即10%),即可根據南部成長率和兩者間的關係,預估受到外在影響下北部的營收成長率。
以下是一個具體的例子:
這個專案的挑戰在於如何將「外在因素」納入預估算法中。因為我們很難估計外在因素究竟對成長率會有多大影響,因此我們改變方式,不去預估外在因素帶來的影響,而是直接拿「已經受影響的南部店舖表現」去預估北部店舖表現,就可以把外在因素加到預估算法中。
在透過南部店舖成長率去預估北部店舖成長率時,我們基於的假設是「兩個地區的成長率有穩定關係」,且「外在因素對北部與南部的影響相同」,不會破壞兩者間的關係。
如果上述兩個假設有任一個不成立,這樣的預估方式可能就會失準。
看到這裡你可能有發現,「假設」這個詞在整篇文章出現了很多次,而「假設」確實也是我認為在預估過程中很重要的事。
有了假設,我們才能確定數值範圍的合理性。
同時,在團隊內部討論預估結果時,可以基於假設討論其合理性,而非單純依數字大小拍腦袋決定過高過低,會讓討論更有效率。
謝謝你看到這邊,如果你看完文章後有任何想法或建議,都很歡迎在留言區提出分享!或是歡迎加我的 Linkedin 與我交流