【資料分析】Junior 資料分析師必備的統計知識 (一) - 描述統計

更新於 發佈於 閱讀時間約 6 分鐘
raw-image

描述統計 (Descriptive Statistics) 是一組用於總結和呈現數據特徵的統計方法,目的是幫助我們快速了解數據的結構與模式,而不需要檢視整個數據集。在數據分析的初期,描述統計經常用來對數據進行初步探索,協助發現問題或確定進一步分析方向。


# 可使用目錄功能快速確認要閱覽的主題


集中趨勢 (Central Tendency)

集中趨勢描述數據集中於某一特定值的趨勢,是數據分佈的核心特徵之一,表示數據的平均水平或集中程度。


平均值 (Mean)

  • 計算方法為將所有值相加並除以值的総數。
  • 優點:能水平地反映數據的共同趨勢。
  • 缺點:容易受異常值影響。


中位數 (Median)

  • 將數據排序後的中間值;如為偶數,取中間兩值的平均。
  • 優點:對異常值不敏感,透明地反映數據集中。


眾數 (Mode)

  • 數據中出現次數最多的值。
  • 優點:適合分析類別數據,如最常見的用戶類型。


集中趨勢的實務應用案例

  1. 銷售分析
    • 利用平均值了解產品的平均銷售額,進一步評估盈利能力。
    • 使用中位數處理含極端高銷售額產品的數據,避免平均值偏差。
  2. 薪資調研
    • 平均值提供整體薪酬水平概覽,適合制定薪酬策略。
    • 中位數避免因少數高薪人群導致數據失真,反映典型員工的薪資水平。
  3. 用戶行為分析
    • 分析眾數以找出最常見的消費金額或產品偏好,設計針對性的促銷方案。
  4. 教育統計
    • 透過中位數評估班級考試成績的整體表現,避免極端值影響評估結果。



分散趨勢指標 (Dispersion)

分散趨勢指標用於衡量數據的離散程度,即數據值如何分散或接近中心值。


全距 (Range)

  • 最大值和最小值之差。
  • 優點:計算簡單,快速對分散性作出初步評估。
  • 缺點:不能反映整體分散情況,容易受異常值影響。


四分位距 (Interquartile Range, IQR)

  • Q3 (75分位數)與 Q1 (25分位數)之差,水平反映數據中間像素的分散。
  • 優點:對異常值不敏感,適合分析正軽偏的數據。


標準差 (Standard Deviation)

  • 表示數據值和平均值之間的平均偏移量,量化分散性。
  • 優點:能水平反映數據大多數平均的距離,具備地方正値性。


分散趨勢指標的實務應用案例

  1. 投資風險評估
    • 使用標準差衡量資產收益的波動性,幫助投資者判斷風險。
    • 使用 IQR 檢測異常波動的交易數據,優化投資策略。
  2. 品質控制
    • 透過變異數分析產品生產過程的穩定性,確保一致性。
    • 全距用於快速檢查樣品中是否有超出容許範圍的數據。
  3. 顧客行為分析
    • 用標準差分析顧客購買金額的波動性,幫助區分穩定顧客和潛在大客戶。
    • 利用 IQR 檢查異常的高消費或低消費行為,制定差異化營銷策略。
  4. 學生成績評估
    • 用標準差分析考試成績的離散程度,了解班級整體學習效果。
    • 利用全距識別最高分與最低分之間的差距,以定位學生的學習差異。



數據分佈 (Distribution)

數據分佈(Distribution) 是指一組數據在其範圍內的排列方式,反映數據值出現的頻率和模式。理解數據分佈有助於我們全面掌握數據特性,並為選擇適合的統計模型或算法提供基礎。


常態分佈 (Normal Distribution)

  • 形狀:呈鐘形曲線,對稱且以平均值為中心。
raw-image
  • 特性
    • 平均值、中位數和眾數相等。
    • 數據多數集中在平均值附近,距離越遠,出現的概率越低。
    • 在一個常態分佈中,68%的數據落在平均值的±1個標準差內,95%的數據落在±2個標準差內,99%的數據落在±3個標準差內。
  • 應用實例
    • 測量數據(如身高、血壓)通常符合常態分佈。
    • 用於假設檢定和參數估計的前提。


均勻分佈 (Uniform Distribution)

  • 形狀:數據均勻分佈,每個值出現的概率相等。
raw-image
  • 特性
    • 沒有明顯的集中趨勢,所有區間內的值分佈均勻。
  • 應用實例
    • 模擬隨機現象,例如骰子投擲的結果或隨機分配抽樣。


偏態分佈 (Skewed Distribution)

偏態反映數據分佈的對稱性。

raw-image
  • 正偏分佈 (Right-Skewed)
    • 分佈的右尾較長,表示高值數據較多,但出現頻率低。
    • 應用實例:收入分佈(少數人收入極高)。
  • 負偏分佈 (Left-Skewed)
    • 分佈的左尾較長,表示低值數據較多,但出現頻率低。
    • 應用實例:產品退貨數據(大部分退貨量很少)。


多峯分佈 (Multimodal Distribution)

  • 形狀:數據中存在多個峰值(眾數)。
raw-image
  • 應用實例
    • 顧客分層(如不同年齡段的購買行為)。
    • 銷售數據中反映多個銷售旺季。


數據分佈的實務應用

  1. 模型選擇與假設檢定
    • 大部分統計方法(如 t 檢定)假設數據符合常態分佈。如果數據不符合,可能需要進行數據轉換(如對數轉換)或使用非參數方法。
  2. 異常值檢測
    • 分佈的形狀可以幫助發現異常值。例如,偏態分佈中可能存在極端高值或低值,影響模型的準確性。
  3. 商業應用案例
    • 在電子商務中,了解顧客的購買金額分佈有助於設計分層促銷策略。
    • 在運營分析中,檢測伺服器請求的到達時間是否符合預期的指數分佈,以評估伺服器負載。



在 Python 中進行數據視覺化

在 Python 中,我們可以利用數據視覺化工具來直觀地確認描述性統計特徵,例如直方圖、箱線圖、散佈圖等等方式來確認資料的分佈狀況,詳細執行方法可以參考以下連結。


參考連結

【資料分析】python資料視覺化基礎操作語法彙整

【資料分析】Seaborn 常用視覺化基礎操作語法彙整

avatar-img
7會員
22內容數
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
JayRay 的沙龍 的其他內容
Naive Bayes是一種基於貝葉斯定理的機器學習分類演算法,適用於文本分類、垃圾郵件檢測及情感分析等任務。雖然假設特徵之間相互獨立,這在現實中不常成立,但其高效計算與穩定性使得在小數據集及高維度特徵空間中表現良好。
數據洩漏是在機器學習和數據分析中,因不當使用資料而造成的模型性能評估錯誤。這篇文章探討數據洩漏的常見形式及其對模型可靠性的影響,並提供防範措施,如嚴格劃分數據集、僅對訓練集進行預處理和使用交叉驗證。瞭解這些概念有助於構建更穩健的數據驅動模型。
本文探討四個關鍵的分類模型評估指標:準確率、精確率、召回率與 F1-Score。這些指標各自從不同角度反映模型的預測性能,理解它們的定義、計算方式和適用情境,能夠幫助您在數據分析和機器學習項目中做出更優的決策。
本文探討了聚類算法中常用的效果評估指標,包括內部和外部指標,並詳細介紹了輪廓係數、群集內距離平方和(WCSS)及Davies-Bouldin指數三種主要指標的計算方法、優缺點與應用場景。這些指標各有特點,適用於不同的聚類場景,有助於有效評估聚類質量,提升無監督學習的效能。
這篇文章深入探討了數據科學與機器學習中的主要聚類算法,包括 K-means、DBSCAN 和層次聚類。介紹了每種算法的工作原理、優缺點及其適用場景,幫助讀者理解何時選擇何種聚類技術。本文還提供了相關的程式碼範例,方便讀者進一步學習與實踐。
虛擬變數陷阱(Dummy Variable Trap)是指在進行One-Hot Encoding時,生成的虛擬變數之間存在完全多重共線性,影響回歸模型的準確性。透過具體的例子,本文探討瞭如何避免這個陷阱,以提升機器學習模型的效果與穩定性。
Naive Bayes是一種基於貝葉斯定理的機器學習分類演算法,適用於文本分類、垃圾郵件檢測及情感分析等任務。雖然假設特徵之間相互獨立,這在現實中不常成立,但其高效計算與穩定性使得在小數據集及高維度特徵空間中表現良好。
數據洩漏是在機器學習和數據分析中,因不當使用資料而造成的模型性能評估錯誤。這篇文章探討數據洩漏的常見形式及其對模型可靠性的影響,並提供防範措施,如嚴格劃分數據集、僅對訓練集進行預處理和使用交叉驗證。瞭解這些概念有助於構建更穩健的數據驅動模型。
本文探討四個關鍵的分類模型評估指標:準確率、精確率、召回率與 F1-Score。這些指標各自從不同角度反映模型的預測性能,理解它們的定義、計算方式和適用情境,能夠幫助您在數據分析和機器學習項目中做出更優的決策。
本文探討了聚類算法中常用的效果評估指標,包括內部和外部指標,並詳細介紹了輪廓係數、群集內距離平方和(WCSS)及Davies-Bouldin指數三種主要指標的計算方法、優缺點與應用場景。這些指標各有特點,適用於不同的聚類場景,有助於有效評估聚類質量,提升無監督學習的效能。
這篇文章深入探討了數據科學與機器學習中的主要聚類算法,包括 K-means、DBSCAN 和層次聚類。介紹了每種算法的工作原理、優缺點及其適用場景,幫助讀者理解何時選擇何種聚類技術。本文還提供了相關的程式碼範例,方便讀者進一步學習與實踐。
虛擬變數陷阱(Dummy Variable Trap)是指在進行One-Hot Encoding時,生成的虛擬變數之間存在完全多重共線性,影響回歸模型的準確性。透過具體的例子,本文探討瞭如何避免這個陷阱,以提升機器學習模型的效果與穩定性。
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
Python資料視覺化在數據分析中扮演關鍵角色,透過視覺化捕捉數據模式、趨勢和異常,透過Matplotlib等工具創建專業圖表變相對簡單和高效。
Thumbnail
本文介紹了在進行資料分析時,將類別欄位轉換為數值欄位的方法,包括Label Encoding、One-Hot Encoding、Binary Encoding、Target Encoding和Frequency Encoding。每種方法的應用範例、優缺點和適用場景都有詳細說明。
2-1 取得統計資料 統計學,指的就是搜集、整理、表現及分析資料的方法。 一般來說,當我們想要知道對於某件事,大眾的普遍想法時,我們可能會透過調查的方式,得到想要的答案。也就是說,我們可能透過問卷或者是電訪的方式,直接收集所要的母體資料。舉個例子來說,在總統選舉時,當侯選人舉辦政見發表會後,為了
Thumbnail
數據分析是現代社會的核心技能,適用於各行各業。無論是在市場營銷、財務管理,還是產品開發中,數據分析都扮演著至關重要的角色。提升數據敏感度有助於提高分析的準確性和效率,使我們能夠迅速找到關鍵信息,進而做出明智的決策。本文將探討數據分析訓練方法,提供實用案例,幫助初學者快速掌握數據分析技術。
Thumbnail
這篇文章介紹如何使用Python整理資料成百分比資料以及繪製百分比堆疊直條圖。
Thumbnail
本文介紹了如何使用資料樞紐分析的功能來整理所需的資料,並設定圖表的中文字型,最後提供了繪圖的程式碼範例。
Thumbnail
本篇文章分享從製作數據分析報告到PPT簡報技巧,內容包括數據分析報告的構成要素、主體的清晰邏輯設定,以及製作精準PPT簡報的方法。提供從製作報告的過程到提升製作效率的建議,適合初入職場的數據分析新人們參考喔~
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
Python資料視覺化在數據分析中扮演關鍵角色,透過視覺化捕捉數據模式、趨勢和異常,透過Matplotlib等工具創建專業圖表變相對簡單和高效。
Thumbnail
本文介紹了在進行資料分析時,將類別欄位轉換為數值欄位的方法,包括Label Encoding、One-Hot Encoding、Binary Encoding、Target Encoding和Frequency Encoding。每種方法的應用範例、優缺點和適用場景都有詳細說明。
2-1 取得統計資料 統計學,指的就是搜集、整理、表現及分析資料的方法。 一般來說,當我們想要知道對於某件事,大眾的普遍想法時,我們可能會透過調查的方式,得到想要的答案。也就是說,我們可能透過問卷或者是電訪的方式,直接收集所要的母體資料。舉個例子來說,在總統選舉時,當侯選人舉辦政見發表會後,為了
Thumbnail
數據分析是現代社會的核心技能,適用於各行各業。無論是在市場營銷、財務管理,還是產品開發中,數據分析都扮演著至關重要的角色。提升數據敏感度有助於提高分析的準確性和效率,使我們能夠迅速找到關鍵信息,進而做出明智的決策。本文將探討數據分析訓練方法,提供實用案例,幫助初學者快速掌握數據分析技術。
Thumbnail
這篇文章介紹如何使用Python整理資料成百分比資料以及繪製百分比堆疊直條圖。
Thumbnail
本文介紹了如何使用資料樞紐分析的功能來整理所需的資料,並設定圖表的中文字型,最後提供了繪圖的程式碼範例。
Thumbnail
本篇文章分享從製作數據分析報告到PPT簡報技巧,內容包括數據分析報告的構成要素、主體的清晰邏輯設定,以及製作精準PPT簡報的方法。提供從製作報告的過程到提升製作效率的建議,適合初入職場的數據分析新人們參考喔~