要觀察一個數值的集合有很多方法,透過這些方法得出數值集合的某些特徵,可以讓我們除了「感覺」外,能有更「理性客觀」的方式來理解這個數值集合的特徵。
眾數:一個集合中出現最多次的那個元素,以此作為一個集合的代表性特徵算是很直覺的作法。但缺點是,以眾數作為一個集合的標籤,我們無法透過眾數得知眾數以外的元素所具備的訊息,取眾數就相當於我們認為除了出現最多次的那個元素外,其它的原素都不重要。如果這個目的就是我們要的,那麼,眾數,你值得擁有!
中位數:從一個數值集合中找出一個中間值來當作代表這個集合的標籤也是很直覺的方式,而中位數所取的中間,指的是數值順序的中間,所以需要先將數值集合先做個排序,之後才能確定中位數的所在,若集合元素總個數為n,n為奇數,則中位數為排序過後的第(n+1)/2個的數值為中位數。若n為偶數,則取第n/2個數值和第(2/n)+1個數值的算術平均數作為中位數。
由於中位數的取值特性,當我們想排除一個數值集合的極大極小值所造成的影響時,特別適合取中位數當代表值。例如當政府告訴我們2021年上班族平均年薪為67萬新台幣時,大部份的人會覺得偏離他們生活中的認知,認為政府發佈的數值偏高,懷疑這個數值是去和郭台銘等台灣富豪平均後的結果,沒有代表性。而我們改取中位數後發現2021年上班族的年薪中位數為50.6萬,就較接近一般民眾的認知了。(即便中位數50.6萬還是代表有一半的民眾賺不到這麼多)
算術平均數:即一個數值集合中所有數值之和,除以數值總個數所得之平均值。
算術平均數相較於眾數和中位數,其優點是較不易受到隨機因素的影響,而缺點則是容易受到極值的影響而偏離集合的集中趨勢。
標準差:標準差是用來衡量一組數字相對集中或分散於算術平均數的一個工具。例如{1, 4, 8, 11} 和 {4, 5, 7, 8},它們的平均數都是6,但後者相對集中於6,前者則相對分散於6。當一個數值集合元素過多無法肉眼可見時,透過工具理解一個集合的特徵就有其必要性了。
標準差越大,代表集合相對於平均數越分散,反之則越集中。