2021-12-12|閱讀時間 ‧ 約 4 分鐘

生態學家的統計學素養

    統計方法是生態學量化研究的重要工具。觀念不清、使用不慎,使分析結果貽笑大方就算了;若據以擴張解釋並影響決策,其後果就非同小可。最怕的是濫用統計工具,以期達到預設的研究結果,那就涉及科學態度與科學倫理了。
    最常見的錯誤就是標準差(standard deviation)、標準誤(standard error)、以及邊際誤差(margin of error)的混淆不清。
    東海大學生命科學系劉少倫教授臉書貼文宣揚藻礁碳封存的表現,但其論述有明顯統計學問題。
    文中「最多可達八百萬,最低六百萬」,顯然是將標準差當作邊際誤差。
    文中「最多可達八百萬,最低六百萬」,顯然是將標準差當作邊際誤差。
    珊瑚藻生態系每一公頃平均可以封存七百多萬克的碳,標準差正負約一百萬克的碳(最多可達八百萬,最低六百萬)」。文中「最多可達八百萬,最低六百萬」,顯然是把標準差當作邊際誤差,直接拿來與平均值加減。
    標準差是在描述一組資料的離散程度;標準誤則是描述一組資料的平均值,其來自的抽樣分布(sampling distribution)之離散程度。如果單純描述一組資料的離散程度,要用標準差。如果要推論一組資料的平均值與某一特定數值,或與另一組資料的平均值之差異,則要用標準誤。如果要推論一組資料的平均值在某一信心水準之下的範圍,要用邊際誤差。邊際誤差是標準誤乘以所設定的信心水準對應之值。例如df=30的t分布,95%信心水準對應的t值是2.042;95%信心水準的邊際誤差就是標準誤乘以2.042。簡單說,標準差用在描述,標準誤用在推論。「最多可達八百萬,最低六百萬」這是在推論平均值,絕對不能使用標準差,不然就是非常非常低級的錯誤。另外,標準差與標準誤一定是正值,絕對不應該出現「標準差正負約一百萬」這樣的敘述。
    該則臉書貼文又說「有人一定會說林惠真老師在大潭藻礁看到的螃蟹數量統計標準差有負值是有問題的,但會這樣想顯然不懂統計數字怎麼正確解讀,會有負值就是因為有許多數值為零的資料造成,但不代表海草床固碳能力不佳。同樣的,大潭藻礁螃蟹數量在標準差下會有負值,是因為有許多零的資料,但平均值是高的,仍然顯示大潭藻礁螃蟹數量是很高的。
    我們先來看看林惠真教授的大潭藻礁螃蟹數量是怎麼估計的。這是林務局農村再生基金補助計畫(107 農再-2.2.6-1.1-林-001-01(Z))的研究。該計畫結案報告的p.160敘述了螃蟹數量的估計。
    螃蟹數量顯然也是直接以平均值加減一個標準差估計。
    該文中,沒有說明0.7±1.1及606.82±1117.65是甚麼統計值,但同份報告在表3-6(p.153)及表3-7(p.155)的螃蟹調查結果都以平均值±標準差呈現,所以p.160數量估計所呈現的數值,合理懷疑也是平均值±標準差,而非平均值±邊際誤差。而且,邊際誤差必須說明採用的信心水準,但報告中完全沒有;很顯然,作者習慣以平均值±標準差呈現結果,並直接以平均值加減一個標準差估計信賴區間。說實在,這是很不應該出現的錯誤。
    劉少倫教授認為批評林惠真教授螃蟹數量估計不合理的人「顯然不懂統計數字怎麼正確解讀」。可惜真正不懂得的,卻是這兩位教授。首先,標準差是用在描述樣本數據的離散情形,不可直接用以推論樣本平均值範圍。其次,對於有許多零的極度右偏分布之樣本,以其統計值直接推論母體平均值的信賴區間也是非常不恰當的。這時候,可以用 bootstrapping 來解決;bootstrapping 的概念及方法,則是大學部的基礎生物統計學就會教的內容。
    林惠真在劉少倫的臉書貼文回應「到底誰的統計學不及格啊?」,啊都拿標準差來推論信賴區間了,你說會是誰呢?!
    分享至
    成為作者繼續創作的動力吧!
    © 2024 vocus All rights reserved.