資料分析的三大目的,可分為探索性、解釋性及預測性的資料分析。
目的在於了解業務流程和資料間的關係,以及資料本身不同變數之間的關係,主要由交叉分析拆解業務流程。例如:從資料中觀察到,某服飾店的年輕男性顧客較多,少部分為中年女性,這是資料本身呈現的狀態。
是透過資料,了解業務流程上過去發生狀況的可能原因,從假設出發,逐步驗證假設是否為真,主要由統計分析或是社會科學的研究方法進行。例如:年輕男性較多,透過假設「是否因為廠牌特色符合時下年輕人喜好?」透過研究設計進一步發放問卷蒐集和分析資料可以得知他們選擇光臨主要是針對特定品牌,或是進一步發現,中年女性光顧是為了買給兒子等,為了現象解釋背後可能的原因。
對於未知的未來精準預測,透過定義預測的目標變數,例如:下個季度的銷售額等,建立預測模型並透過科學驗證方式評估結果,其中多屬於機器學習方法,若模型表現不錯,那麼對於未來就可以有模型預測的實用價值。
三種資料分析的目的、主要使用方法和複雜度各有不同。探索性資料分析往往透過交叉分析,例如性別和年齡組別單獨(男性、女性;年輕、中年、年長)或是交叉(年輕男性、年輕女性、中年男性、中年女性、年長男性、年長女性),計算平均客單價,可以了解業務流程或是促銷活動中,和資料所呈現的結果的一致性,一般而言透過Excel中的樞紐分析表可以完成,複雜度低。
而驗證性資料分析可以透過統計方法,例如提出假設「年輕男性的平均客單價是否顯著高於平均」,則可以透過t檢定,驗證假設是否為真;需要較多的統計學知識,複雜度為中等。
預測性資料分析往往透過機器學習方法進行,例如在資料處理完成後,透過多個變數共同建立模型,目的是為了「預測下個季度的銷售額」,除了了解演算法本身的運作方式,需要處理的變數量往往也較多,通常也需要更熟練的程式技巧,複雜度相對高。
然而,三種資料分析目的之間並無明顯區隔,往往是交互運行、互為參考,例如:在對於對於資料間的關係並無先驗知識(prior knowledge)時,首先透過探索性資料分析,掌握資料欄位間的關係,挖掘可能的疑問;進一步針對疑問提出問題的假設,透過統計比較、解釋性演算法,了解可能的原因;接著可以對於這樣的問題,建立預測模型,對於未來發生事件的可能性提供預測結果,及時因應。
當然,如果開始的目標就是建立預測模型,在過程中進行特徵工程(feature engineering)時,同樣需要透過探索性資料分析得到洞見,過程中也會發現一些資料呈現的有趣現象和可能詮釋,進一步優化預測模型。
資料分析的目的可以分為探索性、解釋性和預測性,有各自不同的是用情境和複雜度,但重點仍視需求決定分析的目的。
此篇作為背景知識的補充,資訊量不多,若有需要也會隨時補充。有任何想法也歡迎留言給我,謝謝。