每周一篇文章的讀書會心得報告摘要與筆記,主要段落分成:
1. 為什麼選這篇文章分享?
2. 作者為什麼要寫這篇文章?
3. 內容重點
4. 心得
為什麼分享這篇文章?
作者想表達甚麼? - 何謂數據治理(Data Governance)
- 資料清洗(Data Cleansing)的重要性
- 如何做好數據治理
重點內容
為何數據治理(Data Governance)很重要?
- 「GIGO」(Garbage In, Garbage Out)
- 數據處理得好是資產,處理不好就是垃圾。
- 拿垃圾資料做數據分析,分析出來的結果還是垃圾。
- 數據治理(Data Governance)就是一切數據應用的根本
- Before:顧客關係管理(Customer Relationship Management,CRM)
- Trend:進階到要顧客數據平台(Customer Data Platform,CDP)
資料清洗(Data Cleansing)的重要性
- 品牌卻很常搞不清楚自己有多少會員
- 大多數的累積會員數,都是一種自 High 的虛華指標
- 有太多的會員是沒有意義的
- 「會員資料是髒的」
- 我們常常會遇到一些品牌,號稱有 400 萬會員
- 資料清洗(Data Cleansing),最後留下可用的會員數,可能最後只剩下 100 多萬
確保「唯一性」
- 會員資料裡面,一個手機號碼有 3 個會員帳號,且每個帳號下面,可能最近都還有交易紀錄
- 這種原始的會員資料,就需要「清洗」,把重複的會員資料整併
確保「有效性」
- 很多會員的原始資料,只留下了會員姓名、編號
- 沒有手機號碼、Email、地址,完全沒有可溝通的資料(挑出來,備存在其他資料庫)
- 沒有任何可溝通資料,也沒有任何交易資料的會員,基本上就跟不存在一樣,僅讓會員數加一
確保「可驗證性」
- 有些會員資料雖然有手機號碼,但卻不是 10 碼,一看就很明確知道欄位資料是錯的
- Email 如沒有 @、@ 後面只有一個英文沒有「.」,都是錯誤的欄位資料
- 有些會員資料的生日是在填會員資料時亂填或櫃姐是亂 Key 的
確保「相依性」
- 有一些資料欄位之間是有「關聯邏輯的」。
- 例如會員性別欄位是「男性」,身分證字號欄位的資料開頭應該要是 1。
- 如果地址欄位填寫的是台北市,郵遞區號就要是 1 開頭。
- 會員現在的點數與等級資料,理論上也能透過交易資料回溯。
- 某會員為第三等級 VIP ,可近一年沒任何交易資料,如果不是有特別關係,可能是哪裡有問題
避免「資料誤差」
- 清洗完會員資料之後,開始做第一次快速的會員資料分析。
- 把所有會員的年度累積貢獻加總,依據每個會員的累積貢獻做排序
- 通常前 10 大的累積貢獻會員裡面,會藏有很多的驚喜)
- 例如某品牌可能平均會員的年度累積貢獻約 10,000 元,但前幾大可能都超過 1,000,000 元
- 聯絡才發現,接電話的這個會員,可能是某個分店的櫃姐。
- 這類的「超超超級大戶」,很多不意外都是特定櫃姐自己養的帳號。
- 真正的超級大戶,是藏在櫃姐的口袋名單裡,品牌自己的會員資料庫,反而永遠看不到。
- 這類並非由正常的會員消費行為所累積下來的數據,通常會造成整個資料分析的偏差,也要挑出來清洗
零售業最在乎的業績數字,很常是不準的!背後 4 大因素
時間差
- 以往零售業以實體門市為主,業績需要在關帳後回檔
- 有時因各門市檔案拋回時間的不同,造成不同時間看業績,可能得到的結果不同
- 增加線上購物的通路,買賣不再是單純的銀貨兩訖,會有一個相對負責的「訂單生命周期」
- 一張訂單會有許多的狀態,從成立訂單、到撿貨、出貨、到到貨後、鑑賞期完成等
- 因為一張訂單所產生的各種狀態,也讓業績的結算變得更加複雜
- 不同的狀態就像數學上的不同單位
- 不能把已出貨的訂單加上剛成立的訂單業績,得到的總業績數據的意義,會變成意義不明
狀態差
- 線上購物的訂單,消費者今天在網站上下單的這些業績,可以直接算進今日業績嗎?
- 一般來說,訂單成立之後只是一種預售(訂單有可能會取消、退貨)
- 真實要轉變成能結算成業績的訂單,需要到訂單真實撿貨、包裝、出貨後,才能落袋算成業績
- 如果取消退貨的比率平均有 20%
- 單純看每日線上購物的網站成交金額(Gross Merchandise Volume,GMV)
- 很容易跟老闆報告的業績數字,變成一個高 20% 的歡樂指標。
邏輯差
- 退貨的單怎麼結算?
- 如果退貨要「勾稽」回原來的訂單,那每個月結算的業績數字,會變成是「浮動」的。
- 11/25 的訂單,12/5 完成了退貨
- 結果因為勾稽回原來 11/25 的單,讓 11 月的業績結算了,卻隨著 12 月的退貨數字一直變動
- 為了讓業績好結算,今天退貨完成的單,就扣在當天,而不勾稽回原訂單。
- 會讓當月的總業績,因為上個月活動退貨的數字,造成對當月業績的影響,甚至在經營上誤判
- 甚至有時品牌規模小,還會因為某天退貨量太大,造成某天結算後總業績反而是負的情形
語意差
有時候光一個業績欄位,可能就有 10 幾種定義,計算的邏輯都不同
- 含稅、不含稅?實際結帳金額?發票金額?要不要扣除點數折抵?
- 業績報表上的總業績,到底是指哪一種業績呢?
不同通路的業績報表,沒釐清各自數字欄位的意義
- 把這些通路報表的數字直接加起來變成總業績數字,很容易就算不準真實的數字。
數據治理(Data Governance)
零售業如何做好數據治理?4 個關鍵做法
- 從數據源頭開始的每一個步驟,到成為數據應用的產出
- 都需要好好的管控,每一步驟都是數據治理所涵蓋的範圍
- 從數據源到每一個數據應用,管理好流程上的每一步,才能創造最終的高價值產出
數據清洗
- 會員資料可能會有重複、資料的缺漏、資料當時輸入時的手誤等
- 在正式存入數據庫之前,都要進行「數據清洗」
- 確保數據的正確性、一致性、可驗證性、完整性、相依性等等。
- 不同的數據可能原始數據的格式不同、欄位的定義也不同
- 需要在匯入資料庫前,進行數據清洗,把不同定義不同格式的數據拉齊
數據定義
- 數據定義在完整的數據流中,是一個如同憲法般的存在
- 確立了所有數據清洗(input)、數據應用(output)的根本
- 每一個欄位數字代表的意義與內容,都要能保持前後一致
- 每一個單一個數字,從頭到尾都要帶著自己的名字,以及知道名字背後的意義
數據驗證
- 數據驗證是數據處理的 QA,如果數據處理的數據流是一條生產線,數據驗證就像品保
- 數據的處理過程中,會經過許多的運算加工
- 為了確保這些運算邏輯的合理性,就需要透過數據驗證來確保
- 數據定義是確保每一個欄位的內容與意義
- 數據驗證是確保數據在被計算的過程中,算法與邏輯的合理性
數據安全
- 數據要被安全地保存,未雨綢繆地進行異地備援。
- 數據的存取要被控管,除了基本的防火牆等軟硬體的保護,最重要的反而是人員的管控。
- 誰可以存取這些數據?不同的人有不同的權限可以存取這些數據?
- 存取數據的過程是不是都有完整的 log 紀錄。
- 大多數都牽涉到組織對於數據相關人員的管理機制,需要有完整的 SOP。
個人心得
- 確保「唯一性」
- 確保「有效性」
- 確保「可驗證性」
- 確保「相依性」
- 避免「資料誤差」
- 時間差
- 狀態差
- 邏輯差
- 語意差
- 數據清洗
- 數據定義
- 數據驗證
- 數據安全