方格精選

課程心得｜尹相志-如何以數據管理思維問對問題

椪皮仔

發佈於學習超級葵花寶典

更新於 2025/01/21發佈於 2021/01/22閱讀時間約 9 分鐘

圖：椪皮仔

去年的差不多這個時候，有聽過尹相志老師在學院分享的另外一堂課，覺得非常驚艷，讓我這個超懼怕統計的學生，也可以聽懂。這次就很快速的報名了老師的課了！那就讓我開始我的課程心得吧～

首先，根據老師上課的內容，我將「做出一個數據模型」拆解成四個步驟。

圖：椪皮仔

一、釐清目的：我們要用數據來幹嘛？

一開始，老師舉了「google翻譯」的例子來跟我們講解，這是不是一種政治操作？

翻攝自臉書專頁「前線科技人員」

其實不是，對於機器而言，我們將「輸入」的東西透過model轉化成「輸出」的結果，但是機器並沒有辦法像人一樣可以處理細節，而且語言並沒有標準答案，機器只是看翻譯後的重疊度。因次對於「break」這個輸入的前後文不同，而導致不同的輸出。

數據是怎麼解決我們的問題呢？老師提到有三個方式：

a. 偵測：在事後進行偵測，老師舉了一個新聞為例，一名女性收到孕婦用品的廣告傳單，父親對發出廣告的廠商提出告訴，認為這名廣告商損毀名譽。但是幾個月後，證實這名女性的確懷孕了，所以 AI 可以預測「懷孕」這個事實嗎？事實上，這名女性先有了小孩以後，可能上網先搜尋了某些資訊，或是被「偵測」到具有孕婦的行為，進而判定她懷孕了。機器無法預測，但可以偵測。

b. 預測：在一個時間點以前提早預測，即使無法改變未來，至少可以知道未來要發生的情況進而提高收益或降低損失。

c. 決策：機器可以提供我們做決策的材料，但是無法自行決策。

了解機器是怎麼運作了以後，我們要回來問一個最重要的問題，
「你要拿這些數據來幹嘛？搜集數據的目的是什麼？」

最近，我在製作麻辣鴨血與豆腐的回饋表單的時候，完全落入老師說講的「把數據當作許願池」，也就是說：「我覺得搜集這個數據未來會有用，但不知道要拿來做什麼？」

我的問卷內容大致上是：
1. 姓名
2. email
3. 訂購什麼產品
4. 口味愛好度
5. 是否會推薦給其他人

我當初設計這個問卷的邏輯就是：「一般填寫問卷我有寫到的題目，我就把他列上來。」也就是說，我不知道我要這個數據幹嘛，我只覺得：「可以看看大家的反應」

那天去正順的共居空間（超美與舒適的環境）跟Alice、孝揚、小蔡一起吃飯的時候，請大家幫我填寫了回饋表單，Alice立刻給我超級實用的建議，並激起我對於問卷設計的好奇心，也看了surveycake的文章，整理成以下三個點跟大家分享：

a. 思考目的：想要透過問卷驗證什麼假設？
例如，我想透過問卷，知道「我的口味是大眾口味」這個假設是否正確？但是我的分類為：「香度、麻度、辣度、鹹度」，但這個分類就是犯了「知識詛咒」了！

消費者可能沒有辦法這麼清晰的分辨「每一個味覺的感受」，因此我可能應該把更具體的例子列舉出來，例如：打開包裝時，有沒有感受到撲鼻的香味？/ 吃起來是否有舌頭麻麻的感覺？/ 會不會要辣到得要一直喝水？/ 是否有再加水（選取水量）？

也希望大家可以告訴我，是否這樣的問法是否比「香度一到五顆星？」更加具體？

除了口味，Alice也建議我可以調查「價格」、「品項」、「行銷手法」、「消費者profile」來更了解消費者輪廓。

b. 根據目的如何設計問題順序？
例如，我的目的為「知道大眾的口味」，那我就不該把「個人資訊」放在前面。相反的，我應該把對於口味的蒐集的問題放在前面，「個人資訊」放在最後而且不能選必選。

如果我的目的是希望蒐集顧客資訊，了解消費者輪廓，我就需要將「性別、年齡、為什麼購買、購買頻次」放在前面，但依然要將「個人資訊」置於最後，且每次蒐集一個資訊就要跟消費者說明「我為什麼要蒐集這個？」，會令人感到安心與舒適。

例如，想要蒐集顧客的生日，會在他們生日月份給他們一些優惠卷，那就可以在問卷題目上備註：「會在您生日的時候寄送優惠卷至您的信箱」。

c. 如何提高填答率？
-在最開頭就強調：「填完問卷可以獲得什麼？」
-放上美美的圖片吸引目光
-不能超過15題，且不要太多問答式問題
-避免問題太過複雜，例如雙重否定

老師：所有的數據要actionable，都要回歸到商業數據來看！

二、拆解問題：拆解與轉化問題的技巧

說到拆解問題，一定要先推薦胤丞老師的這本書：拆解問題的技術。為什麼理解數據跟拆解問題有關呢？前面提到，我們必須心中有一個問題，才能透過數據的蒐集與統整，釐清我們心中的問題與驗證假設。但是，問對問題是一們很高的學問。

老師給我們五個規則，讓我們更容易設計出好問題。

1. 預測一籃子的人的數值比預測一個人的精準
大數據中，準確的原因並非每一筆數據都精準，而是一群人中，有人精準，有人不精準，最終會導向一個精準的結果。

2. 預測相對數值比預測絕對數值精準
老師舉到，例如在過年、雙11的時候，我們無法用常態分佈來預測一個數值，而是應該把消費金額拆分，以分位數當作常數，預測一籃子的人的數值。

3. 預測線性比預測非線性精準
如果非線性難以預測，那就拆分到函數變成線性。

4. 定義分析目標永遠要做最小拆解
最簡易的可以不停的問自己「Why」跟「How」

5. 不要迷信端到端模型，適時採取兩步驟策略
所謂的端到端模型就是：輸入一個input，會跑出所有數據。但是許多時候，我們將問題再度拆解的時候，沒辦法只用端對端模型就解決所有問題。

（如果你開始覺得頭有點痛，那你絕對不孤單XDD）

三、收集數據：時間軸是最重要的觀念

什麼是時間軸呢？

圖：尹相志老師的投影片

老師強調，我們必須很清楚「過去」、「現在」、「未來」，也舉了四個常見問題，讓我們思考：
1. 事件與狀態的不同
狀態發生於長時間：例如：欠債的定義為，連續六個月的違約，這就屬於狀態。
事件有明確的人事時地物：例如：購買的行為，很清楚是在哪裡購買、是誰買了、買了什麼。

2. Bad Model 的盲點
所謂的 Good Model 指的是：這個預測，會讓公司賺錢的事情，例如：電話行銷、交叉銷售。但是所謂的 Bad Model 則是這個預測，是會讓公司虧錢的事情，例如：風險管理、客戶流失。

但是盲點在於，當使用一個 Bad Model 的時候，最後壞事沒有發生，是因為「預測正確，精準預防」還是「預測錯誤」是很難洞察出來的。老師提到通常這個情況，只能透過「原有模型」與「後來模型」做比較，如果結果是好的，就上線吧。

3. 反果為因
老師舉一個「保險業」的實例：
他們發現=>只要住址做變更，客戶就會來申請理賠。

事實上，是當事人唯有要申請理賠的時候，才會想起住址還沒變更。因此變更住址的速度較快，看起來好像是先申請住址，就是反果為因的實例。

4. 將現在的數據套在過去的時間上
過去的那個時間點，是拿得到這個數據的嗎？
就有點像是，在古裝劇裡面出現現代物品一樣，是不正確的。那做出來的模型是一定不準確的了。

當我們做出一個決策，最後的結果總是會有很多不同的影響原因。最困難的點就在於，我們並不能像在實驗室裡面，完全固定其他變因，而針對一個點下去做測試，然後得到很清楚的因果關係，也有時候就只有一次機會。

怎麼訓練邏輯思考？這也是我一直都很想要問的問題，最可怕的就是我們總有自己不清楚的「盲點」。「要怎麼知道自己的盲點？」這是一次在上院長的課的時候，同學提出來的問題。Gipi老師回覆：「沒辦法知道。」

有時候，我們甚至會渴望別人能夠點出我們的盲點，但是真的點出來的時候，又會產生抗拒心理，覺得「不是這樣的！是怎樣怎樣才對」。大腦可怕的就是永遠都在找尋一個會讓自己感到舒服的解釋，但是一旦我們開始有意識的去覺察自己的問題，或是透過別人的行為反思自己，或許就可以慢慢的縮小盲點區。

「有一個願意對你說真話的人，真的是一件很幸福的事。」

四、製作模型

老師提醒我們，四個容易犯的毛病：

1. 永遠別忘了80-20法則（80%的銷售來自20%的商品）
數據科學很擅長解決80%的問題，如果拘泥於小的部分，反而很容易造成誤差。

2. 設計模型、效度評估前，別忘了商業流程
例如：我想設計「預估每日銷售量的模型」？
從供貨鍊=>倉庫=>賣場=>最後才是消費者的購買，銷售量並非只是消費者的行為，而是整個商業過程也包含在裡面，有許多步驟可能造成成本增加或是缺貨造成收益損失。

3. 逆向思考
老師舉了一個很有感的例子：如果想要預測：每日銷售量。
與其預測每天銷售量，更應該去預測的是：賣掉一定的量需要多少天？因為天數不易受到單日極端的銷售量的值的影響。

4. 忽略common sense：如果做出一個非常準確的模型，通常是common sense
老師舉了一個例子：
客戶流失：客戶流失有兩種，自己跑掉或強迫他走的。如果不付錢，就把他流掉，這是強迫他走的。但是一般來說，我們說「客戶流失」講的是自己跑掉的，但把強迫她走的也算進來了，那就會導致所有模型錯誤分析。