描述統計 (Descriptive Statistics) 是一組用於總結和呈現數據特徵的統計方法,目的是幫助我們快速了解數據的結構與模式,而不需要檢視整個數據集。在數據分析的初期,描述統計經常用來對數據進行初步探索,協助發現問題或確定進一步分析方向。
# 可使用目錄功能快速確認要閱覽的主題
集中趨勢 (Central Tendency)
集中趨勢描述數據集中於某一特定值的趨勢,是數據分佈的核心特徵之一,表示數據的平均水平或集中程度。
平均值 (Mean)
- 計算方法為將所有值相加並除以值的総數。
- 優點:能水平地反映數據的共同趨勢。
- 缺點:容易受異常值影響。
中位數 (Median)
- 將數據排序後的中間值;如為偶數,取中間兩值的平均。
- 優點:對異常值不敏感,透明地反映數據集中。
眾數 (Mode)
- 數據中出現次數最多的值。
- 優點:適合分析類別數據,如最常見的用戶類型。
集中趨勢的實務應用案例
- 銷售分析:
- 利用平均值了解產品的平均銷售額,進一步評估盈利能力。
- 使用中位數處理含極端高銷售額產品的數據,避免平均值偏差。
- 薪資調研:
- 平均值提供整體薪酬水平概覽,適合制定薪酬策略。
- 中位數避免因少數高薪人群導致數據失真,反映典型員工的薪資水平。
- 用戶行為分析:
- 分析眾數以找出最常見的消費金額或產品偏好,設計針對性的促銷方案。
- 教育統計:
- 透過中位數評估班級考試成績的整體表現,避免極端值影響評估結果。
分散趨勢指標 (Dispersion)
分散趨勢指標用於衡量數據的離散程度,即數據值如何分散或接近中心值。
全距 (Range)
- 最大值和最小值之差。
- 優點:計算簡單,快速對分散性作出初步評估。
- 缺點:不能反映整體分散情況,容易受異常值影響。
四分位距 (Interquartile Range, IQR)
- Q3 (75分位數)與 Q1 (25分位數)之差,水平反映數據中間像素的分散。
- 優點:對異常值不敏感,適合分析正軽偏的數據。
標準差 (Standard Deviation)
- 表示數據值和平均值之間的平均偏移量,量化分散性。
- 優點:能水平反映數據大多數平均的距離,具備地方正値性。
分散趨勢指標的實務應用案例
- 投資風險評估:
- 使用標準差衡量資產收益的波動性,幫助投資者判斷風險。
- 使用 IQR 檢測異常波動的交易數據,優化投資策略。
- 品質控制:
- 透過變異數分析產品生產過程的穩定性,確保一致性。
- 全距用於快速檢查樣品中是否有超出容許範圍的數據。
- 顧客行為分析:
- 用標準差分析顧客購買金額的波動性,幫助區分穩定顧客和潛在大客戶。
- 利用 IQR 檢查異常的高消費或低消費行為,制定差異化營銷策略。
- 學生成績評估:
- 用標準差分析考試成績的離散程度,了解班級整體學習效果。
- 利用全距識別最高分與最低分之間的差距,以定位學生的學習差異。
數據分佈 (Distribution)
數據分佈(Distribution) 是指一組數據在其範圍內的排列方式,反映數據值出現的頻率和模式。理解數據分佈有助於我們全面掌握數據特性,並為選擇適合的統計模型或算法提供基礎。
常態分佈 (Normal Distribution)
- 特性:
- 平均值、中位數和眾數相等。
- 數據多數集中在平均值附近,距離越遠,出現的概率越低。
- 在一個常態分佈中,68%的數據落在平均值的±1個標準差內,95%的數據落在±2個標準差內,99%的數據落在±3個標準差內。
- 應用實例:
- 測量數據(如身高、血壓)通常符合常態分佈。
- 用於假設檢定和參數估計的前提。
均勻分佈 (Uniform Distribution)
偏態分佈 (Skewed Distribution)
偏態反映數據分佈的對稱性。
- 正偏分佈 (Right-Skewed):
- 分佈的右尾較長,表示高值數據較多,但出現頻率低。
- 應用實例:收入分佈(少數人收入極高)。
- 負偏分佈 (Left-Skewed):
- 分佈的左尾較長,表示低值數據較多,但出現頻率低。
- 應用實例:產品退貨數據(大部分退貨量很少)。
多峯分佈 (Multimodal Distribution)
- 應用實例:
- 顧客分層(如不同年齡段的購買行為)。
- 銷售數據中反映多個銷售旺季。
數據分佈的實務應用
- 模型選擇與假設檢定:
- 大部分統計方法(如 t 檢定)假設數據符合常態分佈。如果數據不符合,可能需要進行數據轉換(如對數轉換)或使用非參數方法。
- 異常值檢測:
- 分佈的形狀可以幫助發現異常值。例如,偏態分佈中可能存在極端高值或低值,影響模型的準確性。
- 商業應用案例:
- 在電子商務中,了解顧客的購買金額分佈有助於設計分層促銷策略。
- 在運營分析中,檢測伺服器請求的到達時間是否符合預期的指數分佈,以評估伺服器負載。
在 Python 中進行數據視覺化
在 Python 中,我們可以利用數據視覺化工具來直觀地確認描述性統計特徵,例如直方圖、箱線圖、散佈圖等等方式來確認資料的分佈狀況,詳細執行方法可以參考以下連結。
參考連結
【資料分析】python資料視覺化基礎操作語法彙整
【資料分析】Seaborn 常用視覺化基礎操作語法彙整