最近財政部公布了110年度綜合所得稅申報初步核定統計資料,很多媒體也發了很多這類地區所得排名新聞,我也去找了財政資訊中心網站找了相關資料,裡面除了平均數還有第一分位數、中位數、第三分位數、標準差能讓我們對資料評估的更正確。
平均數(Mean)是一組數據之和,除以這組數據個數,目的是表徵數據集中趨勢。
中位數(Median)是一組數據排序後正中間的值。
第一分位數(25%)跟第三分位數(75%)是被中位數分成兩組數據後的再中間的值。
標準差(standard deviation)是將每個數據點與平均值相減後再平方,再全部加起來除以這組數據個數後再取平方根,衡量了數據的離散程度。
透過計算標準差的算法可以得知,標準差的值受到平均數的影響。當數據點與平均數的差距較大時,標準差的值就會較大,表示數據的分散程度較大。反之,當數據點與平均數的差距較小時,標準差的值就會較小,表示數據的分散程度較小。
綜合所得總額平均前十名的區域,其實標準差都滿大的,表示收入資料的散佈範圍很廣,每個數據點相對於平均數的差異很大,尤其士林永福里的標準差達1727萬,這樣子的標準差使得平均數就無法代表這個群體,因為平均數受到少部分高薪的極端值影響,永福里平均數296.3萬遠高於中位數66.5萬也大於第三分位數138.3萬很多,這意味著收入資料呈現右偏分布。這表明在該區域中,有一小部分個體或家庭擁有較高的收入,導致平均數偏向較高的值,大多數居民的收入可能集中在較低的區域,而一小部分人的收入非常高,顯示該區域的貧富差距很大。
中位數跟平均數都是全國第一的新竹關興里,平均數374.7萬就較接近中位數292.8萬,這表示收入資料可能呈現較為對稱的分布。平均數和中位數之間的差距較小,也表明整體收入分布的中心較為集中,連第一分數也高達150.2萬表示此區居民收入是真的很高,竹科的半導體產業聚落也讓中位數前十名都落在新竹地區。
我們在看薪資所得資料的時候,還是要搭配其他相關統計數字看,第一分位數、中位數、第三分位數這樣排序後的數字也是真實的數據點,比單看平均數來的有意義,再附上各縣市的資料讓大家自行解讀。