敘述統計 (Descriptive Statistics) 是統計學的一個分支,旨在以簡潔的方式總結和描述數據集的特徵。它主要關注收集、組織、呈現和分析數據,但不涉及對總體進行推斷或預測。敘述統計的主要目標是提供數據的清晰概覽,使其更容易理解和解釋。
敘述統計通常包括以下幾種主要的度量和方法:
1. 集中趨勢的度量 (Measures of Central Tendency): 這些度量用於識別數據集的典型值或中心位置。- 平均數 (Mean): 將數據集中所有數值加總後除以數據的個數。它是最常用的集中趨勢度量。
- 中位數 (Median): 將數據集按大小排序後,位於中間位置的數值。如果數據個數為偶數,則為中間兩個數值的平均數。中位數不受極端值的影響。
- 眾數 (Mode): 數據集中出現次數最多的數值。一個數據集可能有多個眾數或沒有眾數。
2. 離散程度的度量 (Measures of Dispersion) / 變異性的度量 (Measures of Variability): 這些度量用於描述數據集中數值的散佈或變異程度。
- 全距 (Range): 數據集中最大值與最小值之間的差。它提供了一個簡單的數據散佈的度量,但容易受極端值的影響。
- 四分位距 (Interquartile Range, IQR): 第 75 百分位數(第三四分位數)與第 25 百分位數(第一四分位數)之間的差。它衡量了中間 50% 數據的散佈程度,對極端值不太敏感。
- 變異數 (Variance): 衡量數據點與平均數之間偏離程度的平均值。它是將每個數據點與平均數的差的平方求和,然後除以數據個數(或在樣本變異數中除以 n-1)。
- 標準差 (Standard Deviation): 變異數的平方根。它以與原始數據相同的單位表示數據的散佈程度,更易於理解。
- 平均絕對離差 (Mean Absolute Deviation, MAD): 衡量數據點與平均數之間絕對差值的平均值。它對極端值的敏感度不如變異數和標準差。
3. 分布形狀的描述 (Description of the Shape of the Distribution): 敘述統計也包括對數據分布形狀的描述。
- 直方圖 (Histogram): 用於顯示連續數據分布的圖表。
- 長條圖 (Bar Chart): 用於顯示類別數據頻率的圖表。
- 盒鬚圖 (Box Plot): 一種標準化的方式,用於顯示數據集的最小值、第一四分位數、中位數、第三四分位數和最大值。
- 偏度 (Skewness): 衡量數據分布的不對稱程度。正偏表示分布向右傾斜,負偏表示分布向左傾斜。
- 峰度 (Kurtosis): 衡量數據分布的尖峭程度。高峰度表示數據更集中在平均數附近,且尾部更細;低峰度表示數據分布更平坦。
4. 相關性的描述 (Description of Relationships): 敘述統計還可以描述數據集中不同變數之間的關係。
- 散佈圖 (Scatter Plot): 用於顯示兩個變數之間關係的圖表。
- 相關係數 (Correlation Coefficient): 衡量兩個變數之間線性關係的強度和方向(例如,皮爾森相關係數)。
總結來說,敘述統計提供了一套工具和方法,用於總結數據的主要特徵,例如其中心位置、散佈程度和分布形狀。它是理解數據的第一步,為進一步的統計分析和推斷奠定基礎。