研究想探討某個疾病發生率跟年齡的關係,所以蒐集了11隻患病的狗做分析。如果我們將患犬的年齡從小到大依序排列可以得到下列的表格:
將數據依大小排列可輕鬆找出中位數、第一與第三四分位數。
這邊可以帶出幾個統計常用的名詞,首先是平均數(Mean)。平均數的算法很簡單,以這個範例而言,如果我們想知道患犬年齡的平均數,講白話些就是平均年齡(mean age),那麼我們只要把所有狗的年齡加起來再除以11就可以得到平均年齡為7.3歲。
接著是中位數(Medium),它代表的意義是一組數據如果依大小順序排列,那麼排在正中間的那個數字就是中位數;另外我們也可以把整個順序分為4個等分(Quartile),排在1/4的地方的數字稱作第一四分位數(Q1),排在3/4的數字稱作第三四分位數(Q3)。根據這種方式,排在中間的中位數也可被稱作第二四分位數(Q2),因為2/4就是1/2嘛!
如果我們想讓病犬年齡分布用更視覺化的方來呈現,這時候就可以用下面的盒鬚圖(box and whisker plot)來表示:
盒鬚圖顧名思義就是由一個盒形及上下延伸的鬚線所組成。盒子的底部代表第一四分位數,頂端就代表第三四分位數,而盒子內的橫線則是代表中位數。盒子的高度稱作四分位距(Interquartile range; IQR),也就是Q3減掉Q1所得到的數字。盒子上下方的鬚線則代表這組數據中「比較有參考意義」的最大與最小值,這邊必須要強調參考意義這四個字,因為如果單看數字的話你可能會有個疑問:年齡最小值不是編號1的2歲嗎?怎麼會變成編號2的4歲?一般來說盒鬚圖的鬚線是分別從Q1及Q3的地方上下延伸1.5倍IQR的距離,然後再從這個範圍內決定最大最小值,這種目的是要凸顯出離群值(outlier),也就是跟整體數據差異過大的極端數值;離群值在盒鬚圖上大多都是用圓圈來表示。不過我也有看過一些paper上的盒鬚圖最大最小值並不完全符合上述的方式(例如下面的圖),如果有人知道這其中的秘密的話歡迎留言幫忙補充。
節錄自Statistical analysis regarding the effects of height and weight
on life span of the domestic dog. doi:10.1016/j.rvsc.2006.06.005
最後來想來討論一下平均數跟中位數到底哪個比較重要?由於一組數據可能會包含一些極端值,因此如果單純只看平均數的話就會有點失真,在這種情況下看中位數可能會比較有意義。這點在存活分析的文章上就比較明顯。一般我們在看某個治療能夠延長壽命多久大多都是看到paper寫中位存活時間(median survival time),因為有些治療對象可能活得特別短或特別長,假使是用平均存活時間來計算的話很有可能會受到極端值的影響而拉低或拉高數字,因此使用中位存活時間是比較有意義的。中位存活時間也可以說是半數生存期,例如某個治療的中位存活時間是6個月,這就代表有50%的病患可以存活超過6個月。
參考文獻
- Deeper into Box Plots.
- 離群值的檢測