二戰的故事啟發

二戰的故事啟發

倖存者偏差最早起源於二戰時期的美國空軍對飛機損傷的研究，當時研究人員只研究了還能飛回來的飛機，並根據這些飛機的損傷部位提出了相應的補強建議。然而，這種研究卻忽略了已經被擊落的飛機，也就是失敗的一方。因此，研究的結果並不能完全代表整個飛機群體的損傷情況，可能會導致錯誤的結論。

研究人員根據戰鬥中回來的飛機進行分析，除了螺旋槳與駕駛艙之外，其它地方都佈滿了彈孔，就些彈孔分布的地方就成為了資料科學中統計的一個數據樣本。

而根據這些樣本，大部分軍方皆一致認為應該針對這些彈著點較多的地方進行加強，畢竟眼見為憑，事實的表象也讓我們直覺的認為應該如此決策，但此時統計學家卻獨排眾議，提出了不同的看法，認為應該要針對彈著點較少的地方進行防護。

那為什麼這會統計專家會得出這樣的結論呢？

Web3.0時代下為創作者、閱讀者打造的專屬共贏平台 - 為什麼要加入？

從這個故事中我們觀察到，表面的證據並不能直接讓我們進行決策，假若我們單看倖存者而忽略了犧牲者時，便會導致結論偏向不正確的一方，在資料科學中也是如此，機器學習時若樣本數不足，或者未給予反面方的資料，很容易造成統計錯誤，進行推論出錯誤的決策。

結語

在其他領域，倖存者偏差也常常存在。例如，對於成功的企業家或投資者的研究，我們只看到他們的成功案例，卻忽略了那些失敗的案例。這樣容易產生錯誤的結論，認為成功是因為他們的某些特質或策略，而忽略了其他可能的因素。

為了避免倖存者偏差，研究人員應該盡可能獲取全面的數據，包括成功和失敗的案例，從而得出更客觀、全面的結論。在分析數據時，也需要謹慎思考，不僅關注成功的一面，還要考慮失敗的原因和因素，以獲得更完整的視角。

喜歡撰寫文章的你，不妨來了解一下：

歡迎加入一起練習寫作，賺取知識！

為什麼會看到廣告

#AI

#資料科學

阿Han的沙龍阿Han的軟體技術棧 💡AI

阿Han的沙龍

109會員

249Content count

哈囉，我是阿Han，是一位 👩‍💻 軟體研發工程師，喜歡閱讀、學習、撰寫文章及教學，擅長以圖代文，化繁為簡，除了幫助自己釐清思路之外，也希望藉由圖解的方式幫助大家共同學習，甚至手把手帶您設計出高品質的軟體產品。

留言0

查看全部

發表第一個留言支持創作者！

阿Han的沙龍的其他內容

【Prompt Engineering 提示工程】Ep.3 讓AI身歷其境的角色提示法

前面我們有介紹「【Generative AI — Prompt篇】Ep.1 什麼是Prompt Engineering?」相信對於下指令給AI應該已經具有基本知識，那麼這一次我們來介紹Prompt技巧中的其中一環「角色提示法」，這是什麼樣的一種魔法呢？很簡單，我們就是讓AI變身成專家，賦予特定領域

#ChatGPT #AI #Prompt

【Prompt Engineering 提示工程】Ep.2 踏入提示魔法師的旅程，基本原則與建議

前面我們有介紹「【Generative AI — Prompt篇】Ep.1 什麼是Prompt Engineering?」相信對於下指令給AI應該已經具有基本知識了吧，在進入Prompt Engineering之前有一些Guideline是我們需要知道的，就如同線上遊戲一般，我們會先進到新手村學習一

#ChatGPT #AI #Prompt

【Prompt Engineering 提示工程】Ep.1 什麼是Prompt Engineering?

「Prompt」這個詞是提示的意思，但為什麼需要提示呢？當AI不理解我們的時候，勢必給出的回應並非準確的為我們解答，因此一個好的提示是非常重要的，就如同我們人與人之間的溝通一樣，如何將自己心裡的疑惑轉化成好的問題來提問對方，讓對方理解，進而給出一個明確的答案，這就是提示(Prompt)的重要性，對

#AI #Prompt #NLP

【自然語言處理 — 概念篇】探索TF-IDF, 關於詞的統計與索引隱含著什麼奧秘呢？

所謂TF-IDF是由兩個名詞所組成的, 分別是「詞頻(Term Frequency,TF)」和「逆文檔頻率(Inverse Document Frequency,IDF)。表示詞在文檔中出現的頻率, 就統計學而言, 只要這個詞在文本中出現越多次代表越值得關注, 因此它會具有一個重要的統計評估指標之

#AI #NLP

【💎 語音辨識 — Whisper】雙聲道音訊處理與辨識

假設我們有一段雙聲道的音檔, 正常來說透過whisper進行語音辨識時都是以整段音檔進行辨識,但我們若想將左右聲道分離進行辨識的話就得對音檔進行音訊處理了。怎麼做呢？比較簡單的方式就是透過音訊處理工具將音檔進行左右聲道的分離，再獨立的進行辨識即可。這次會將雙聲道音檔透過pydub這套音訊處理工

#AI #whisper #語音辨識

【自然語言處理 — 概念篇】來認識一下詞向量(Word Embedding or Word Vector)吧

詞跟詞之間的距離有多近呢？如果一個詞在相對的空間內都佔有一席之地的話, 試想, 每個詞都是一個獨立的個體, 就如同我們人類一般, 相同興趣的、相同頻率的就容易被歸納在一起，某些詞可能是相近的意思, 因此我們只需要給每個詞標上一個向量值, 並進行統計，而這些詞在這批資料集之中所佔的位置依照距離都能夠

#NLP #AI #word2vec

Fed 9月會議：傳達「不想要落後給曲線」的正向信號，著手管理市場的衰退預期

重點摘要： 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期，但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱，經濟復甦的時點或是 1Q25 季底附近

#聯準會 #Fed #降息

方格子 vocus 官方沙龍

2024/08/27

「相簿裡最捨不得刪的 N 張照片！」：完成任務抽富士即可拍！

近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎？新版式整體視覺上「更加凸顯圖片」，為了搭配這次的更新，我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務，還有機會獲得富士即可拍，讓你的美好回憶都可以用即可拍珍藏！

#相簿裡最捨不得刪的照片

AWS Educate的沙龍

2022/05/08

Day of Data Science | 資料科學工作職能介紹

2012 年，Data Scientist (資料科學家) 被《哈佛商業評論》譽為「二十一世紀最性感的職業」後，「 Data Science (資料科學) 」逐漸成為一個時髦術語(Buzzword)。一、關於資料科學二、資料科學重要職能

#資料科學 #資料科學家 #數據分析

AI落地，資料科學專案的規劃、執行與商業影響力1 - 規劃篇

這份難以言喻的成就感是催生這篇文章的主要原因，我想分享在專案規劃與數據分析技術上的經驗，並拆成為三個階段，分別為專案規劃、專案執行與成效評估，執行階段會著墨於程式設計面的分享。專案規劃階段定義問題擬定行動方案

#資料科學 #數據分析 #python

資料科學家的工作日常3 - 建立資料團隊的文化與程式規範

對於資料科學家和數據分析師來說，雖然他們也寫程式，但他們寫程式的習慣和一般認知的工程師不太相同，甚至有些人對於寫code的背景知識明顯不足。或許你會說，「因為現在很多做數據分析的都不是本科系，理論知識當然不會那麼紮實」，我認同這是個可能的原因，但我也認為這不能當成藉口，一個專業工作者本來就應該補足自

#資料科學 #數據分析 #Python

資料科學家的工作日常2 - 求職前必須了解的公司組織編制

由於資料科學家與數據分析部門出現的時間還不長，大家的認知仍有差異，或因為每間公司核心價價、管理哲學不同，導致數據團隊可能會以各種型式存在，常見的型式有三種：獨立部門、隸屬IT（Information Technology，資訊部門）或RD（Research & Development，軟體開發）

#資料科學 #數據分析 #Python