去年的差不多這個時候,有聽過尹相志老師在學院分享的另外一堂課,覺得非常驚艷,讓我這個超懼怕統計的學生,也可以聽懂。這次就很快速的報名了老師的課了!那就讓我開始我的課程心得吧~
首先,根據老師上課的內容,我將「做出一個數據模型」拆解成四個步驟。
一、釐清目的:我們要用數據來幹嘛?
一開始,老師舉了「google翻譯」的例子來跟我們講解,這是不是一種政治操作?
其實不是,對於機器而言,我們將「輸入」的東西透過model轉化成「輸出」的結果,但是機器並沒有辦法像人一樣可以處理細節,而且語言並沒有標準答案,機器只是看翻譯後的重疊度。因次對於「break」這個輸入的前後文不同,而導致不同的輸出。
數據是怎麼解決我們的問題呢?老師提到有三個方式:
a. 偵測:在事後進行偵測,老師舉了一個新聞為例,一名女性收到孕婦用品的廣告傳單,父親對發出廣告的廠商提出告訴,認為這名廣告商損毀名譽。但是幾個月後,證實這名女性的確懷孕了,所以 AI 可以預測「懷孕」這個事實嗎?事實上,這名女性先有了小孩以後,可能上網先搜尋了某些資訊,或是被「偵測」到具有孕婦的行為,進而判定她懷孕了。機器無法預測,但可以偵測。
b. 預測:在一個時間點以前提早預測,即使無法改變未來,至少可以知道未來要發生的情況進而提高收益或降低損失。
c. 決策:機器可以提供我們做決策的材料,但是無法自行決策。
了解機器是怎麼運作了以後,我們要回來問一個最重要的問題,
「你要拿這些數據來幹嘛?搜集數據的目的是什麼?」
最近,我在製作麻辣鴨血與豆腐的回饋表單的時候,完全落入老師說講的「把數據當作許願池」,也就是說:「我覺得搜集這個數據未來會有用,但不知道要拿來做什麼?」
我的問卷內容大致上是:
1. 姓名
2. email
3. 訂購什麼產品
4. 口味愛好度
5. 是否會推薦給其他人
我當初設計這個問卷的邏輯就是:「一般填寫問卷我有寫到的題目,我就把他列上來。」也就是說,我不知道我要這個數據幹嘛,我只覺得:「可以看看大家的反應」那天去正順的
共居空間(超美與舒適的環境)跟Alice、孝揚、小蔡一起吃飯的時候,請大家幫我填寫了回饋表單,Alice立刻給我超級實用的建議,並激起我對於問卷設計的好奇心,也看了
surveycake的文章, 整理成以下三個點跟大家分享:
a. 思考目的:想要透過問卷驗證什麼假設?例如,我想透過問卷,知道「我的口味是大眾口味」這個假設是否正確?但是我的分類為:「香度、麻度、辣度、鹹度」,但這個分類就是犯了「知識詛咒」了!
消費者可能沒有辦法這麼清晰的分辨「每一個味覺的感受」,因此我可能應該把更具體的例子列舉出來,例如:打開包裝時,有沒有感受到撲鼻的香味?/ 吃起來是否有舌頭麻麻的感覺?/ 會不會要辣到得要一直喝水?/ 是否有再加水(選取水量)?
也希望大家可以告訴我,是否這樣的問法是否比「香度一到五顆星?」更加具體?除了口味,Alice也建議我可以調查「價格」、「品項」、「行銷手法」、「消費者profile」來更了解消費者輪廓。
b. 根據目的如何設計問題順序?例如,我的目的為「知道大眾的口味」,那我就不該把「個人資訊」放在前面。相反的,我應該把對於口味的蒐集的問題放在前面,「個人資訊」放在最後而且不能選必選。
如果我的目的是希望蒐集顧客資訊,了解消費者輪廓,我就需要將「性別、年齡、為什麼購買、購買頻次」放在前面,但依然要將「個人資訊」置於最後,且每次蒐集一個資訊就要跟消費者說明「我為什麼要蒐集這個?」,會令人感到安心與舒適。
例如,想要蒐集顧客的生日,會在他們生日月份給他們一些優惠卷,那就可以在問卷題目上備註:「會在您生日的時候寄送優惠卷至您的信箱」。
c. 如何提高填答率?-在最開頭就強調:「填完問卷可以獲得什麼?」
-放上美美的圖片吸引目光
-不能超過15題,且不要太多問答式問題
-避免問題太過複雜,例如雙重否定
老師:所有的數據要actionable,都要回歸到商業數據來看!
二、拆解問題:拆解與轉化問題的技巧
說到拆解問題,一定要先推薦胤丞老師的這本書:
拆解問題的技術。為什麼理解數據跟拆解問題有關呢?前面提到,我們必須心中有一個問題,才能透過數據的蒐集與統整,釐清我們心中的問題與驗證假設。但是,問對問題是一們很高的學問。
老師給我們五個規則,讓我們更容易設計出好問題。
1. 預測一籃子的人的數值比預測一個人的精準
大數據中,準確的原因並非每一筆數據都精準,而是一群人中,有人精準,有人不精準,最終會導向一個精準的結果。
2. 預測相對數值比預測絕對數值精準
老師舉到,例如在過年、雙11的時候,我們無法用常態分佈來預測一個數值,而是應該把消費金額拆分,以分位數當作常數,預測一籃子的人的數值。
3. 預測線性比預測非線性精準
如果非線性難以預測,那就拆分到函數變成線性。
4. 定義分析目標永遠要做最小拆解
最簡易的可以不停的問自己「Why」跟「How」
5. 不要迷信端到端模型,適時採取兩步驟策略
所謂的端到端模型就是:輸入一個input,會跑出所有數據。但是許多時候,我們將問題再度拆解的時候,沒辦法只用端對端模型就解決所有問題。
(如果你開始覺得頭有點痛,那你絕對不孤單XDD)
三、收集數據:時間軸是最重要的觀念
什麼是時間軸呢?
老師強調,我們必須很清楚「過去」、「現在」、「未來」,也舉了四個常見問題,讓我們思考:
1. 事件與狀態的不同
狀態發生於長時間:例如:欠債的定義為,連續六個月的違約,這就屬於狀態。
事件有明確的人事時地物:例如:購買的行為,很清楚是在哪裡購買、是誰買了、買了什麼。
2. Bad Model 的盲點
所謂的 Good Model 指的是:這個預測,會讓公司賺錢的事情,例如:電話行銷、交叉銷售。但是所謂的 Bad Model 則是這個預測,是會讓公司虧錢的事情,例如:風險管理、客戶流失。
但是盲點在於,當使用一個 Bad Model 的時候,最後壞事沒有發生,是因為「預測正確,精準預防」還是「預測錯誤」是很難洞察出來的。老師提到通常這個情況,只能透過「原有模型」與「後來模型」做比較,如果結果是好的,就上線吧。
3. 反果為因
老師舉一個「保險業」的實例:
他們發現=>只要住址做變更,客戶就會來申請理賠。
事實上,是當事人唯有要申請理賠的時候,才會想起住址還沒變更。因此變更住址的速度較快,看起來好像是先申請住址,就是反果為因的實例。
4. 將現在的數據套在過去的時間上
過去的那個時間點,是拿得到這個數據的嗎?
就有點像是,在古裝劇裡面出現現代物品一樣,是不正確的。那做出來的模型是一定不準確的了。
當我們做出一個決策,最後的結果總是會有很多不同的影響原因。最困難的點就在於,我們並不能像在實驗室裡面,完全固定其他變因,而針對一個點下去做測試,然後得到很清楚的因果關係,也有時候就只有一次機會。
怎麼訓練邏輯思考?這也是我一直都很想要問的問題,最可怕的就是我們總有自己不清楚的「盲點」。「要怎麼知道自己的盲點?」這是一次在上院長的課的時候,同學提出來的問題。Gipi老師回覆:「沒辦法知道。」
有時候,我們甚至會渴望別人能夠點出我們的盲點,但是真的點出來的時候,又會產生抗拒心理,覺得「不是這樣的!是怎樣怎樣才對」。大腦可怕的就是永遠都在找尋一個會讓自己感到舒服的解釋,但是一旦我們開始有意識的去覺察自己的問題,或是透過別人的行為反思自己,或許就可以慢慢的縮小盲點區。
「有一個願意對你說真話的人,真的是一件很幸福的事。」
四、製作模型
老師提醒我們,四個容易犯的毛病:
1. 永遠別忘了80-20法則(80%的銷售來自20%的商品)
數據科學很擅長解決80%的問題,如果拘泥於小的部分,反而很容易造成誤差。
2. 設計模型、效度評估前,別忘了商業流程
例如:我想設計「預估每日銷售量的模型」?
從供貨鍊=>倉庫=>賣場=>最後才是消費者的購買,銷售量並非只是消費者的行為,而是整個商業過程也包含在裡面,有許多步驟可能造成成本增加或是缺貨造成收益損失。
3. 逆向思考
老師舉了一個很有感的例子:如果想要預測:每日銷售量。
與其預測每天銷售量,更應該去預測的是:賣掉一定的量需要多少天?因為天數不易受到單日極端的銷售量的值的影響。
4. 忽略common sense:如果做出一個非常準確的模型,通常是common sense
老師舉了一個例子:
客戶流失:客戶流失有兩種,自己跑掉或強迫他走的。如果不付錢,就把他流掉,這是強迫他走的。但是一般來說,我們說「客戶流失」講的是自己跑掉的,但把強迫她走的也算進來了,那就會導致所有模型錯誤分析。
最後,老師給了我們幾個方法提升數據的敏感度:
1. 習慣檢視自己的分析並且抓出結論
2. 不再「說服自己:那只是...」,真實面對結論
3. 如果一個走勢一直出現,必須想要找出原因
老實說,這一堂課實在很難一瞬間吸收,但是相志老師透過很多的舉例,讓原本很痛的頭比較不痛一些。因為知道數據很重要,所以想要開始建立自己的數據基礎,讓未來有機會能夠從數據當中找出一些有趣的 insight。
從記錄開始,希望未來可以一步步建立屬於自己公司的資料庫。