你可能有聽過什麼事倖存者偏誤,讓我們來聽聽著名的案例,二次世界大戰,盟軍一群軍事家,計畫補強轟炸機的鋼板,開始研究轟炸機回來基地後,受損的位置,圖片如下紅色的點,記錄的受傷的位置。
https://en.wikipedia.org/wiki/Survivorship_bias
從上圖來看,軍事家發現,轟炸機大多數受傷的是在兩側的機翼跟機尾受傷,所以應該補強機翼跟機尾,而前方的駕駛艙、油箱與引擎室,這有沒有聽起來哪裡怪怪的,你覺得呢?
前方的駕駛艙、飛機的油箱跟引擎室如果中彈,我們想想會如何?我的理解是飛機會因為駕駛死亡,或是爆炸,而沒有能力開回基地,所以他並沒有辦法在當一個倖存者,直接變成了罹難者。所以回去的倖存者統計的數據分析,既便是事實也有偏差,這就是著名的倖存者偏差,通常講解到這裡,大家會覺得原來長知識了,但是大家要怎麼實踐思考這件事情呢?那就是看到統計數據要有母體(分母)合理性的思維。
常常看到很多問卷調查,並沒有解釋資料收集的方式與來源,一句大數據分析就解釋了結論,這常常讓很多人掉入坑裡,被賣掉還幫人數錢,而如何培養母體合理性思維呢?我給大家列幾個我個人認為有效的方法:
調查的人、事、時、地、有沒有偏差
可以想想如果調查的人,有沒有偏向哪一個群體,男人女人,年紀上或職業上的有沒有偏差,這點通常很直觀,但是也有一些隱形的坑要注意,比如說總統大選的電話民調,通常家裡有裝市內電話,且有時間做完電話調查完的,通常是已退休的年長人士,這就是調查方式也間接造成的偏差。
事情就有如二戰轟炸機調查回來的轟炸機,這件事情母體,會導致母體不完全,還有一個有經典案例就是獸醫院調查,貓咪墜樓受傷送醫院的統計,經統計1~3,樓4~7樓平均差不多,8樓跟9樓兩個樓層差了一倍,所以下一個驚人的結論,貓咪對於越高樓層往下摔,越能自我保護不會受傷,但有沒有另一個事實是,從9樓摔下去的貓咪就直接死了,而不送醫了。
時間通常就比較直觀,但是要注意真的如白天、黑夜的時間之外,還要注意一些特殊事件,比如說都在疫情期間調查,台灣開放快篩後,僅用參加快篩的人當分母除上快篩陽性的當分子,就很不恰當,因為在這個時間點,如果沒有什麼症狀的人,他是不會出門的,甚至更不敢去檢疫所快篩,所以會去的人,多半已經是有症狀,陽性機率也比較高的人。
地點的偏差就是調查的地點,大到國家小到很小的一個區塊,都是可以深究的,國家當然很好理解,美國人研究套用到亞洲人就不一定合適,或是你想知道哪一間手搖杯最讓人喜歡,你是在50嵐前店前做問卷調查,想當然會願意去買50嵐的飲料,你本身至少不會討厭50嵐,所以這就是調查的對其他飲料店就是不公平的。
最後希望你能夠對解讀數據的你,有所提升與幫助,不要掉進去刻意誘導你的事實的坑裡。