資料分析的3大目的:探索、解釋及預測

閱讀時間約 2 分鐘

資料分析的三大目的,可分為探索性解釋性預測性的資料分析

探索性資料分析

目的在於了解業務流程和資料間的關係,以及資料本身不同變數之間的關係,主要由交叉分析拆解業務流程。例如:從資料中觀察到,某服飾店的年輕男性顧客較多,少部分為中年女性,這是資料本身呈現的狀態。

解釋性資料分析

是透過資料,了解業務流程上過去發生狀況的可能原因,從假設出發,逐步驗證假設是否為真,主要由統計分析或是社會科學的研究方法進行。例如:年輕男性較多,透過假設「是否因為廠牌特色符合時下年輕人喜好?」透過研究設計進一步發放問卷蒐集和分析資料可以得知他們選擇光臨主要是針對特定品牌,或是進一步發現,中年女性光顧是為了買給兒子等,為了現象解釋背後可能的原因。

預測性資料分析

對於未知的未來精準預測,透過定義預測的目標變數,例如:下個季度的銷售額等,建立預測模型並透過科學驗證方式評估結果,其中多屬於機器學習方法,若模型表現不錯,那麼對於未來就可以有模型預測的實用價值。

比較

三種資料分析的目的、主要使用方法和複雜度各有不同。探索性資料分析往往透過交叉分析,例如性別和年齡組別單獨(男性、女性;年輕、中年、年長)或是交叉(年輕男性、年輕女性、中年男性、中年女性、年長男性、年長女性),計算平均客單價,可以了解業務流程或是促銷活動中,和資料所呈現的結果的一致性,一般而言透過Excel中的樞紐分析表可以完成,複雜度低。

而驗證性資料分析可以透過統計方法,例如提出假設「年輕男性的平均客單價是否顯著高於平均」,則可以透過t檢定,驗證假設是否為真;需要較多的統計學知識,複雜度為中等。

預測性資料分析往往透過機器學習方法進行,例如在資料處理完成後,透過多個變數共同建立模型,目的是為了「預測下個季度的銷售額」,除了了解演算法本身的運作方式,需要處理的變數量往往也較多,通常也需要更熟練的程式技巧,複雜度相對高。

比較不同資料分析目的

比較不同資料分析目的

然而,三種資料分析目的之間並無明顯區隔,往往是交互運行、互為參考,例如:在對於對於資料間的關係並無先驗知識(prior knowledge)時,首先透過探索性資料分析,掌握資料欄位間的關係,挖掘可能的疑問;進一步針對疑問提出問題的假設,透過統計比較、解釋性演算法,了解可能的原因;接著可以對於這樣的問題,建立預測模型,對於未來發生事件的可能性提供預測結果,及時因應。

資料分析目的間的交互關係

資料分析目的間的交互關係

當然,如果開始的目標就是建立預測模型,在過程中進行特徵工程(feature engineering)時,同樣需要透過探索性資料分析得到洞見,過程中也會發現一些資料呈現的有趣現象和可能詮釋,進一步優化預測模型。

結論

資料分析的目的可以分為探索性、解釋性和預測性,有各自不同的是用情境和複雜度,但重點仍視需求決定分析的目的。

最後

此篇作為背景知識的補充,資訊量不多,若有需要也會隨時補充。有任何想法也歡迎留言給我,謝謝。


28會員
19內容數
和大家一起看見台灣的資料,包含人口、經濟、社會等相關議題。
留言0
查看全部
發表第一個留言支持創作者!
李政旺的沙龍 的其他內容
在資料科學中常可以聽到「權重」,可藉由專家經驗和機器學習取得「權重」,但他們差別是什麼?在透過演算法決定權重的想法相對盛行的現今,又如何整合兩種途徑的結果?
決定「分析單位」是資料分析執行前,最需要確認的項目;決定了「分析單位」等同於決定分析結果數據呈現方式、解讀和應用方法。讓我們一起了解「分析單位」到底是什麼?什麼會決定分析單位?以及沒有弄清楚分析單位會有什麼影響?
在資料科學中常可以聽到「權重」,可藉由專家經驗和機器學習取得「權重」,但他們差別是什麼?在透過演算法決定權重的想法相對盛行的現今,又如何整合兩種途徑的結果?
決定「分析單位」是資料分析執行前,最需要確認的項目;決定了「分析單位」等同於決定分析結果數據呈現方式、解讀和應用方法。讓我們一起了解「分析單位」到底是什麼?什麼會決定分析單位?以及沒有弄清楚分析單位會有什麼影響?
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
多層次資料問題指的是在社會科學研究中,我們經常透過問卷以班級或學校為單位進行調查,此時收集到的資料很可能存在著多個層次的結構。這意味著我們觀察到的個體或單位被分類或分群到不同的層次中。本文將簡介此用傳統統計分析多層次資料結構的問題和限制
Thumbnail
ChatGPT已經在短短的時間內,進化到極為驚人的商業運用。搞不好很快地就會威脅到許多白領階級。就以美國微軟公司的動作來說,該公司在2月7日發佈記者會,宣布會將搜索引擎「Bing」搭載聊天機器人「ChatGPT」,也就是OpenAI公司的技術。
Thumbnail
首先,聊聊我與SimilarWeb的不解之緣😊,以前在媒體界擔任產品經理時,老闆最愛問下屬的一件事,別人家競品的網站狀況如何?流量如何?廣告策略有哪些?可是坦白說,沒有認識到別家公司內部員工的話,誰有辦法清楚知道,這時只能想些折衷的辦法,去翻翻網路資訊,或請教一些數位界的前輩,了解是否有哪些第三方
Thumbnail
前幾年因為工作方面的需求,花了一些時間自學了Python,進行網站爬蟲與資料分析,但近期由於職務的轉換,Python的實作應用機會減少了許多,對於code撰寫的敏感度也因此降低不少,趁著上個月看到勞動力職能發展協會官網有一門新課程「Python大數據資料探勘分析應用班」正在線上招生,想說既然政府與公
Thumbnail
這一次在高雄上課,租用昂貴的電腦教室,只是很可惜,這家巨匠居然沒有安裝office,只有開放原始碼的試算表,有一點卡卡的,影響我的教學。 趁學員陸續到期,趕緊教他們下載資料;下載資料對我來說雖然簡單,但對於這一批學員來說,卻可能是第一次操作;還好很多學員立即學會,也立馬變身為種子教官,教會旁邊的學員
Thumbnail
來開箱最近這幾年很夯的 Google 資料分析專業認證證照課程,給你簡單的課程介紹和我上課後的真實心得!
Thumbnail
在前一篇文章:【GIS】電信信令人口統計資料分析(一):從平日與假日的活動人口差異看城市特性,我們用電信信令的人口統計資料看到了,其實有些地區在不同時段的活動人口數量變動很大。而台灣人對於便利商店的存在已經到了理所當然的程度了,所以我就在想,那如果要在便利商店,例如統一超商裡工作的話
Thumbnail
內政部也終於在今年(110年)7月8日釋出109年的全國電信信令人口統計資料。有了平、假日裡不同時段的電信信令判斷出的活動人口資料,我們就可以來看看不同鄉鎮市區在各時段的活動人口差異。為了方便解釋,這裡會用不同時段的人口數相除來做為說明。
Thumbnail
雖然數據分析師是新職位,但數據分析或是資料分析的概念一點都不新。公司裡面行之有年的職位,不管是行銷、業務、採購、倉管,每個職位都需要數據,也都需要分析。隨著大數據、資料科學、機器學習、AI等酷炫的新名詞、新技術與新應用出現,所需的知識與技能多到員工爆肝也學不完。
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
多層次資料問題指的是在社會科學研究中,我們經常透過問卷以班級或學校為單位進行調查,此時收集到的資料很可能存在著多個層次的結構。這意味著我們觀察到的個體或單位被分類或分群到不同的層次中。本文將簡介此用傳統統計分析多層次資料結構的問題和限制
Thumbnail
ChatGPT已經在短短的時間內,進化到極為驚人的商業運用。搞不好很快地就會威脅到許多白領階級。就以美國微軟公司的動作來說,該公司在2月7日發佈記者會,宣布會將搜索引擎「Bing」搭載聊天機器人「ChatGPT」,也就是OpenAI公司的技術。
Thumbnail
首先,聊聊我與SimilarWeb的不解之緣😊,以前在媒體界擔任產品經理時,老闆最愛問下屬的一件事,別人家競品的網站狀況如何?流量如何?廣告策略有哪些?可是坦白說,沒有認識到別家公司內部員工的話,誰有辦法清楚知道,這時只能想些折衷的辦法,去翻翻網路資訊,或請教一些數位界的前輩,了解是否有哪些第三方
Thumbnail
前幾年因為工作方面的需求,花了一些時間自學了Python,進行網站爬蟲與資料分析,但近期由於職務的轉換,Python的實作應用機會減少了許多,對於code撰寫的敏感度也因此降低不少,趁著上個月看到勞動力職能發展協會官網有一門新課程「Python大數據資料探勘分析應用班」正在線上招生,想說既然政府與公
Thumbnail
這一次在高雄上課,租用昂貴的電腦教室,只是很可惜,這家巨匠居然沒有安裝office,只有開放原始碼的試算表,有一點卡卡的,影響我的教學。 趁學員陸續到期,趕緊教他們下載資料;下載資料對我來說雖然簡單,但對於這一批學員來說,卻可能是第一次操作;還好很多學員立即學會,也立馬變身為種子教官,教會旁邊的學員
Thumbnail
來開箱最近這幾年很夯的 Google 資料分析專業認證證照課程,給你簡單的課程介紹和我上課後的真實心得!
Thumbnail
在前一篇文章:【GIS】電信信令人口統計資料分析(一):從平日與假日的活動人口差異看城市特性,我們用電信信令的人口統計資料看到了,其實有些地區在不同時段的活動人口數量變動很大。而台灣人對於便利商店的存在已經到了理所當然的程度了,所以我就在想,那如果要在便利商店,例如統一超商裡工作的話
Thumbnail
內政部也終於在今年(110年)7月8日釋出109年的全國電信信令人口統計資料。有了平、假日裡不同時段的電信信令判斷出的活動人口資料,我們就可以來看看不同鄉鎮市區在各時段的活動人口差異。為了方便解釋,這裡會用不同時段的人口數相除來做為說明。
Thumbnail
雖然數據分析師是新職位,但數據分析或是資料分析的概念一點都不新。公司裡面行之有年的職位,不管是行銷、業務、採購、倉管,每個職位都需要數據,也都需要分析。隨著大數據、資料科學、機器學習、AI等酷炫的新名詞、新技術與新應用出現,所需的知識與技能多到員工爆肝也學不完。