【資料科學微知識】什麼是倖存者偏差?

更新於 發佈於 閱讀時間約 2 分鐘
倖存者偏差(Survivorship bias)是一種認知偏差,指的是在觀察研究對象時,只關注了「倖存」或「成功」的部分,而忽略了已經「消失」或「失敗」的部分。
這種偏差通常發生在樣本不完整或有遺漏的情況下,而且容易導致對結果做出誤導性的評估或推論。
尤其AI的時代來臨,基石源自於數據,數據相當於燃料,經過一番統計運用之後才能夠聰明的理解我們的需求之後給予最貼近我們需要的答案,資料科學領域中最重視數據的佐證,但往往我們只看到表象而忽略了某些重要的關鍵因素,導致得出非正確的結論,造成偏差。
究竟誰對誰錯呢?

二戰的故事啟發

倖存者偏差最早起源於二戰時期的美國空軍對飛機損傷的研究,當時研究人員只研究了還能飛回來的飛機,並根據這些飛機的損傷部位提出了相應的補強建議。然而,這種研究卻忽略了已經被擊落的飛機,也就是失敗的一方。因此,研究的結果並不能完全代表整個飛機群體的損傷情況,可能會導致錯誤的結論。
研究人員根據戰鬥中回來的飛機進行分析,除了螺旋槳與駕駛艙之外,其它地方都佈滿了彈孔,就些彈孔分布的地方就成為了資料科學中統計的一個數據樣本。
而根據這些樣本,大部分軍方皆一致認為應該針對這些彈著點較多的地方進行加強,畢竟眼見為憑,事實的表象也讓我們直覺的認為應該如此決策,但此時統計學家卻獨排眾議,提出了不同的看法,認為應該要針對彈著點較少的地方進行防護。
那為什麼這會統計專家會得出這樣的結論呢?
從這個故事中我們觀察到,表面的證據並不能直接讓我們進行決策,假若我們單看倖存者而忽略了犧牲者時,便會導致結論偏向不正確的一方,在資料科學中也是如此,機器學習時若樣本數不足,或者未給予反面方的資料,很容易造成統計錯誤,進行推論出錯誤的決策。

結語

在其他領域,倖存者偏差也常常存在。例如,對於成功的企業家或投資者的研究,我們只看到他們的成功案例,卻忽略了那些失敗的案例。這樣容易產生錯誤的結論,認為成功是因為他們的某些特質或策略,而忽略了其他可能的因素。
為了避免倖存者偏差,研究人員應該盡可能獲取全面的數據,包括成功和失敗的案例,從而得出更客觀、全面的結論。在分析數據時,也需要謹慎思考,不僅關注成功的一面,還要考慮失敗的原因和因素,以獲得更完整的視角。
喜歡撰寫文章的你,不妨來了解一下:
歡迎加入一起練習寫作,賺取知識!
為什麼會看到廣告
avatar-img
119會員
267內容數
哈囉,我是阿Han,是一位 👩‍💻 軟體研發工程師,喜歡閱讀、學習、撰寫文章及教學,擅長以圖代文,化繁為簡,除了幫助自己釐清思路之外,也希望藉由圖解的方式幫助大家共同學習,甚至手把手帶您設計出高品質的軟體產品。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
阿Han的沙龍 的其他內容
前面我們有介紹「【Generative AI — Prompt篇】Ep.1 什麼是Prompt Engineering?」相信對於下指令給AI應該已經具有基本知識,那麼這一次我們來介紹Prompt技巧中的其中一環「角色提示法」,這是什麼樣的一種魔法呢? 很簡單,我們就是讓AI變身成專家,賦予特定領域
前面我們有介紹「【Generative AI — Prompt篇】Ep.1 什麼是Prompt Engineering?」相信對於下指令給AI應該已經具有基本知識了吧,在進入Prompt Engineering之前有一些Guideline是我們需要知道的,就如同線上遊戲一般,我們會先進到新手村學習一
「Prompt」這個詞是提示的意思,但為什麼需要提示呢? 當AI不理解我們的時候,勢必給出的回應並非準確的為我們解答,因此一個好的提示是非常重要的,就如同我們人與人之間的溝通一樣,如何將自己心裡的疑惑轉化成好的問題來提問對方,讓對方理解,進而給出一個明確的答案,這就是提示(Prompt)的重要性,對
所謂TF-IDF是由兩個名詞所組成的, 分別是「詞頻(Term Frequency,TF)」和「逆文檔頻率(Inverse Document Frequency,IDF)。 表示詞在文檔中出現的頻率, 就統計學而言, 只要這個詞在文本中出現越多次代表越值得關注, 因此它會具有一個重要的統計評估指標之
假設我們有一段雙聲道的音檔, 正常來說透過whisper進行語音辨識時都是以整段音檔進行辨識,但我們若想將左右聲道分離進行辨識的話就得對音檔進行音訊處理了。 怎麼做呢? 比較簡單的方式就是透過音訊處理工具將音檔進行左右聲道的分離,再獨立的進行辨識即可。 這次會將雙聲道音檔透過pydub這套音訊處理工
詞跟詞之間的距離有多近呢? 如果一個詞在相對的空間內都佔有一席之地的話, 試想, 每個詞都是一個獨立的個體, 就如同我們人類一般, 相同興趣的、相同頻率的就容易被歸納在一起,某些詞可能是相近的意思, 因此我們只需要給每個詞標上一個向量值, 並進行統計,而這些詞在這批資料集之中所佔的位置依照距離都能夠
前面我們有介紹「【Generative AI — Prompt篇】Ep.1 什麼是Prompt Engineering?」相信對於下指令給AI應該已經具有基本知識,那麼這一次我們來介紹Prompt技巧中的其中一環「角色提示法」,這是什麼樣的一種魔法呢? 很簡單,我們就是讓AI變身成專家,賦予特定領域
前面我們有介紹「【Generative AI — Prompt篇】Ep.1 什麼是Prompt Engineering?」相信對於下指令給AI應該已經具有基本知識了吧,在進入Prompt Engineering之前有一些Guideline是我們需要知道的,就如同線上遊戲一般,我們會先進到新手村學習一
「Prompt」這個詞是提示的意思,但為什麼需要提示呢? 當AI不理解我們的時候,勢必給出的回應並非準確的為我們解答,因此一個好的提示是非常重要的,就如同我們人與人之間的溝通一樣,如何將自己心裡的疑惑轉化成好的問題來提問對方,讓對方理解,進而給出一個明確的答案,這就是提示(Prompt)的重要性,對
所謂TF-IDF是由兩個名詞所組成的, 分別是「詞頻(Term Frequency,TF)」和「逆文檔頻率(Inverse Document Frequency,IDF)。 表示詞在文檔中出現的頻率, 就統計學而言, 只要這個詞在文本中出現越多次代表越值得關注, 因此它會具有一個重要的統計評估指標之
假設我們有一段雙聲道的音檔, 正常來說透過whisper進行語音辨識時都是以整段音檔進行辨識,但我們若想將左右聲道分離進行辨識的話就得對音檔進行音訊處理了。 怎麼做呢? 比較簡單的方式就是透過音訊處理工具將音檔進行左右聲道的分離,再獨立的進行辨識即可。 這次會將雙聲道音檔透過pydub這套音訊處理工
詞跟詞之間的距離有多近呢? 如果一個詞在相對的空間內都佔有一席之地的話, 試想, 每個詞都是一個獨立的個體, 就如同我們人類一般, 相同興趣的、相同頻率的就容易被歸納在一起,某些詞可能是相近的意思, 因此我們只需要給每個詞標上一個向量值, 並進行統計,而這些詞在這批資料集之中所佔的位置依照距離都能夠
你可能也想看
Google News 追蹤
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
從機率的角度思考投資的重要性,以及如何避免倖存者偏差和過度樂觀的問題。 投資是廣義的機率遊戲,重要的是決策品質,而非特定事件的結果 優秀的投資人永遠都從「機率」的角度思考問題,需要不斷優化與再執行。
Thumbnail
社群媒體會導致「過濾氣泡」和「同溫層效應」。也就是說,這只會讓用戶只看到符合其既有觀點和興趣的內容,從而錯過多樣化的信息。 如果要做出更妥善的市場判斷,除了需要在即時的數據和長期的品牌價值之間找到平衡,也要提醒大家要及時『抽身』回到真實的世界中,才能避免陷入數據迷戀和演算法偏見。
Thumbnail
婚姻關係中很多時也會存在著幸存者偏差,很多人也應該聽過幸存者偏差這句說話,簡單來說就是每件事情的發生不能夠只看表面的事情來作判斷成因,表面上看到的未必是事實的全部。
Thumbnail
倖存者偏差還有一個有名的例子。 那就是明明很厲害,卻吃了一堆負評的M4雪曼坦克 ......
Thumbnail
探討第二次世界大戰時期的「幸存者偏差」概念如何影響投資決策。作者通過比較成功投資者與未成功者之間的差異,提出了投資中的幸存者偏差現象。隨後,作者建議採用投資於 ETF 的方式以降低單一股票風險,從而獲得更穩健的回報。
二次世界大戰時,美國空軍為了降低轟炸機的折損率,請來美國哥倫比亞大學統計學教授亞伯拉罕•沃德提供意見。 他建議幫飛機增加裝甲,軍方根據安全返回的飛機分析出砲火最多的在機翼,而引擎處有少數彈孔,決定在機翼增加防護,而教授提出另一個看法,應該在炮火較少的引擎,因為沒將未安全返航的納入分析。機翼雖然中彈
Thumbnail
學生時期學習困難時,問及成績優異同學學習方式,得知平時預習複習而已,自然有好成績。但筆者學習並未見成效,後來發現陷入「倖存者偏差」。 討論倖存者偏差及《海賊王》理的天龍人例子,提出應從不同角度看事情,常問自己「為什麼?」以避免誤判。
Thumbnail
「維持現狀偏誤(Status Quo Bias)」主要是來自於人的心理狀態,因此深植在我們內心難以改變。 什麼都不做,有時候是很容易的,各種擔心害怕的情緒以及對於未知不確定的恐懼,往往會戰勝我們的理性。 最重要的是,往往最終會造成我們投資財務上的損失,甚至長期下來會嚴重的影響生活的狀態。
相信這個主題,在之前也講了兩、三回,今天早餐我從一位YTer重新詮釋倖存者偏差的緣由,一樣的二戰情節,一樣是倖存的飛機,不同的詮釋,這也代表我的命理可以朝這個方向嘗試看看,說不定是個契機。
Thumbnail
"管過去它做了什麼"是絕對不對的觀念,不是只有政治而已,而是為人處世必須要小心萬劫不復的陷阱。 在數學或流行病統計上有一個叫做貝氏定理,應用在觀察一個人,則相當於觀察他失去信任的過程。
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
從機率的角度思考投資的重要性,以及如何避免倖存者偏差和過度樂觀的問題。 投資是廣義的機率遊戲,重要的是決策品質,而非特定事件的結果 優秀的投資人永遠都從「機率」的角度思考問題,需要不斷優化與再執行。
Thumbnail
社群媒體會導致「過濾氣泡」和「同溫層效應」。也就是說,這只會讓用戶只看到符合其既有觀點和興趣的內容,從而錯過多樣化的信息。 如果要做出更妥善的市場判斷,除了需要在即時的數據和長期的品牌價值之間找到平衡,也要提醒大家要及時『抽身』回到真實的世界中,才能避免陷入數據迷戀和演算法偏見。
Thumbnail
婚姻關係中很多時也會存在著幸存者偏差,很多人也應該聽過幸存者偏差這句說話,簡單來說就是每件事情的發生不能夠只看表面的事情來作判斷成因,表面上看到的未必是事實的全部。
Thumbnail
倖存者偏差還有一個有名的例子。 那就是明明很厲害,卻吃了一堆負評的M4雪曼坦克 ......
Thumbnail
探討第二次世界大戰時期的「幸存者偏差」概念如何影響投資決策。作者通過比較成功投資者與未成功者之間的差異,提出了投資中的幸存者偏差現象。隨後,作者建議採用投資於 ETF 的方式以降低單一股票風險,從而獲得更穩健的回報。
二次世界大戰時,美國空軍為了降低轟炸機的折損率,請來美國哥倫比亞大學統計學教授亞伯拉罕•沃德提供意見。 他建議幫飛機增加裝甲,軍方根據安全返回的飛機分析出砲火最多的在機翼,而引擎處有少數彈孔,決定在機翼增加防護,而教授提出另一個看法,應該在炮火較少的引擎,因為沒將未安全返航的納入分析。機翼雖然中彈
Thumbnail
學生時期學習困難時,問及成績優異同學學習方式,得知平時預習複習而已,自然有好成績。但筆者學習並未見成效,後來發現陷入「倖存者偏差」。 討論倖存者偏差及《海賊王》理的天龍人例子,提出應從不同角度看事情,常問自己「為什麼?」以避免誤判。
Thumbnail
「維持現狀偏誤(Status Quo Bias)」主要是來自於人的心理狀態,因此深植在我們內心難以改變。 什麼都不做,有時候是很容易的,各種擔心害怕的情緒以及對於未知不確定的恐懼,往往會戰勝我們的理性。 最重要的是,往往最終會造成我們投資財務上的損失,甚至長期下來會嚴重的影響生活的狀態。
相信這個主題,在之前也講了兩、三回,今天早餐我從一位YTer重新詮釋倖存者偏差的緣由,一樣的二戰情節,一樣是倖存的飛機,不同的詮釋,這也代表我的命理可以朝這個方向嘗試看看,說不定是個契機。
Thumbnail
"管過去它做了什麼"是絕對不對的觀念,不是只有政治而已,而是為人處世必須要小心萬劫不復的陷阱。 在數學或流行病統計上有一個叫做貝氏定理,應用在觀察一個人,則相當於觀察他失去信任的過程。