別讓統計數字騙了你(How to Lie wish Statistics)

閱讀時間約 7 分鐘
有內建偏差的樣本
  1. 抽樣的樣本不足以代表全體,有代表性的樣本,這是指把各種偏差來源都排除的樣本。譬如在街頭或是火車站進行隨機的訪問結果,樣本中會明顯少了總是開車出門的樣本。
  2. 受訪者想要給一個會讓訪問員喜歡的答案,在閱讀調查結果時,一定要把這點列入考慮。譬如:調差薪資的相關問題時,人們常常會高報薪資或低報薪資,為了虛榮感或是拍被查務考慮。

精心選擇的平均

  1. 當你遇到一個平均工資數字,首先要問的是:這是那些人的平均?
  2. 有人告訴你某個平均數字的時候,你對它還是所知甚少,除非你知道他們所用的廣義平均,是指平均數,中位數,還是眾數
  3. 有時數據的分佈情況並非是常態分配(鐘形的兩邊對稱),而會是偏斜的(skewed),外形像是溜滑梯,一端急昇一端緩降,此時平均值會離中位數有點距離,以年收入來統計,如果樣本中少數人的收入遠高於其他人,這樣平均值就會被拉高,而中位數較低,就會出現『幾乎每個人都低於平均』。

隱藏起來的小數字

  1. 不論是平均,圖表,還是上升或下降的趨勢,當重要數字沒有伴隨出現時,你最好別對這些事情認真。
  2. 取巧之處,是不恰當的樣本,例如取樣數太少,只要樣本數夠小,就會因為機遇而產生出,不代表任何意義的結果。例如:拿一枚硬幣來擲看看正反面的結果,連擲十次後,會是正反面各半嗎?有時候出現八次正面是常見的事。取樣數太少就是有這樣的機率出現特別的結果。那如果連續擲一千次呢?最後就會非常容易接近正反各半。
  3. 只強調算術平均與中位數,但沒有標示範圍。例如平均溫度都是20度,但是一個地方是10-30度,另一個地方是0到40度,雖然平均值是一樣的,但是變動差很多。
  4. 建商以家庭平均人數來決定建造房屋時,房間數的參考,例如平均為3.6人,所以規劃了2-3房的方式。但是如果以整體範圍來看,3.6人可能只佔全體的45%,有35%少於3.6人,20%多於3.6人。這樣反而是多數家庭(55%)沒有適合的房型了。

庸人自擾篇

  1. 要考慮IQ分數以及其他許多抽樣結果時,唯一正確的方式,應該要看範圍。
  2. 抽樣調差時,都會有誤差,例如智力測驗,A 君IQ101與B君IQ98的人,誰比較聰明?要先清楚測驗的誤差有多少,例如誤差值3,那麼A有可能因為誤差而是101-3=98,而 B是98+3=101,因此B君有可能還是比A君聰明的。或是其實兩者差不多
  3. 如果兩者差異值小於誤差範圍,就沒有排名上的意義了。

誇大其辭的圖

  1. 新聞週刊在1951年就用這方法呈現了『股票到達21年來的新高』,他們把圖切掉了一部份。
  2. 改變圖表縱軸與橫軸刻度單位,就可能讓趨勢的感覺改變。

象形圖

  1. 這些現象,有一部份或許只是繪圖者太遜而造成,不過恐拍還是欺騙的成分居多。
  2. 以錯誤的圖形比例來誤導,雖然產量增加近50%,但是圖形在寬高各增加50%後,面積是增加了3-4倍的感覺,明顯誤導了結果。

似相關而非相關的數字

  1. 如果你不注意車禍統計數字的實際意義,不論哪種交通工具的統計數字,都可以把你嚇個半死。
  2. 很大一個樣本的知名醫生當中,有27%抽的是利喉牌香菸。比任何其他牌子都多。除非醫生對於香菸特別有研究,否則這個數據並沒有參考價值。
  3. 能多榨出26%的果汁的果汁機?如果比較的基礎是手工榨汁,那這臺果汁機跟其它果汁機比較,可能沒有多優秀了。
  4. 好天氣比有霧的天氣容易出車禍?這是因為有霧的日子太少了。
  5. 去年因飛機失事而死亡的人數是十年前的1.5倍!所以現在的搭飛機比較危險?其實是現在飛行的班次與人數,比以前多了幾百倍甚至千倍了。
  6. 你需要清楚的是比例!
  7. 在美西戰爭中,海軍的死亡率是每千人有九人死亡,而紐約市的老百性是每千人有16人,海軍以此來證明加入海軍是安全的!但是這樣比較是沒有意義的,因為雙方抽樣的樣本條件,根本不一致!

『錯亂因果結論』重新出現

  1. 如果我們會讓統計以及一堆數字與小數點攪亂了因果關係,那麼這比迷信也沒好到哪裡去。
  2. 統計大學生有抽菸與沒有抽菸的考試成績,結果沒有抽菸的成績較佳,因此推定抽菸對思考有害!這要的假設是有問體題的,或許只是抽菸的人常花比較多的時間在與朋友交際抽菸,所以讀書的時間較少所導致。
  3. 有高關聯性不一定會有因果關係,有因果關係才會有高關聯性。例如:有天你發現,如果你出門是左轉比起右轉,左轉當天當天股票上漲的機率,高出右轉有兩倍。有高關聯但是不一定有因果!

怎樣利用統計來操控

  1. 如果統計的目的和商業有關,統計學家不太可能去選擇一個不利於結果的方法,就像撰寫廣告詞的人一樣。
  2. 利用不同的表示法來誤導,下圖是政府支出佔國民所得的比重,圖上是優先以較低所得與土地面積的州開始塗黑,而下方的條件是以所得高的優先,等是正確的數據,但是印像會差很多。
  1. 錯誤的計算方式來誤導,例如:公司在去年景氣差時,減薪20%,今年景氣好轉加薪5%,補回了1/4了。這樣的計算是有誤的,實際上如果原本薪資是100元,減薪20%後為80元,加薪5%後為84元,只有恢復1/5!
  2. 減薪50%之後,要加薪100%才會恢復原本的薪資。
  3. 利用百分比來誇大效果,工資上升不多,但是利潤上升的很快?換一種表示方法,就完全是不同的效果。公司會說薪資的總金額比利潤高很多,但是要求加薪的員工認為,利潤上升很多,而薪資上升的不高。
  1. 即使是從是學術研究的人,也可能觀念有所偏差(可能不自覺),或想要證明某個觀點,甚至有所企圖。

如何對統計提出質疑

  1. 碰到有人根據未經證明的假設胡言亂語的時候,只要問一問『這樣有道理嗎?』,就常常可以讓誇大解釋的統計現形。
  2. 你可以用五個簡單的問題來避勉掉許多不實的訊息。
  3. 問題一:誰說的?大約第一件該注意的事情,就是有沒有偏差。引用數據的人是否有利益考量?
  4. 問題二:漏了什麼?在缺乏比較的情況下,很多數字會失去意義。例如有公司的員工數100人,平均分紅是10萬元,其實少數幾個高層主管拿了總分紅的50%,而多數員工分剩下的50%。要注意統計的平均,中位數,眾數,與範圍與比率。缺少的數據可能才是真像。
  5. 問題四:是否有人改變了主題?要注意從原始數據推導到結論的過程當中,是否有什麼地方被改掉了。例如:應該把住在魔鬼島的囚犯,都送到華爾道夫飯店去住,反而比較省錢。這其實是把監獄的總經費,變成旅館的費用了,如果真要這麼作,除了飯店費用外,還是需要一大比監禁犯人於旅館的管理費用,只會比原本的更高!
  6. 問題五:這有道理嗎?使用過去的趨勢來預測未來走勢,這其實沒多少意義,除非未來所有的條件都相同,否則跟本不可能照線性發展,例如:銀行股過去十年的殖利率都在5%左右,因此你推定未來十年也會是一樣的結果。這樣的推論是假設未來十年都不會有改變
此篇文章會顯示動態置底廣告
為什麼會看到廣告
    avatar-img
    585會員
    283內容數
    我是FC大叔,一個滿滿指數化投資魂加上資產配置骨的中年職場打工蟻,大叔只賣笑不賣身,大叔不彎腰撿肥皂$,大叔沒有財務自由,大叔只有言論自由!大叔不是裝瘋賣傻,大叔這是幽默好嗎?
    留言0
    查看全部
    avatar-img
    發表第一個留言支持創作者!
    FC的碎碎念 的其他內容
    富足人生:要錢還是要命 富足人生:要錢還是要命 Your money or your life : transforming your relationship with money and achieving financial independence (你的錢或你的生活:改變你與金錢的關係,
    半農半X的生活 過去幾年身邊出了幾個熱門的新名詞: 斜槓:多元工作、多元收入、多能力結合。 FIRE:(Financial Independence, Retire Early 財務自由,提早退休) 為何會特別注到這些類別的資訊呢?自從使用指數化投資後,其實就開始思索[第二人生]的規劃
    多年前就開始利用公共圖書館借閱書籍,最近才發現公共電子書平台也越來越方便了,每個縣市的圖書館也都有提供一樣的平台,一改以往的公部門常見的不和群,這些電子書平台現在是由HyRead 提供服務。 入口網站 不過各縣市間的帳戶並沒有互通,入口網址也不同,並且所提供的電子書在各館有些不同,猜想是各縣市的經費
    一切從儲蓄開始 1.儲蓄: 假若你沒錢投資,就甭談要賺2%,5%,甚或10%的報酬率。    2.指數: 這項基本的投資策略(指數化投資)的績效表現,打敗了市面上銷售的數千檔股票及債券基金,只輸給少數幾檔而已。    3.分散投資: 分散投資各類股票 ,各種資產,各個市場,且分批佈局。 重新調
    今天想講的主題是『勝率』,而主角當然就是股票囉!我剛剛在某個網站看到了這張圖,並且有這樣一句標題: 風險、獲利、勝率 – 最多只能抓住其中兩個 我不知道大家對於股票的勝率怎麼估算,如果是以我這種買入並持有,股利再投入的投資方式。我在意的是台灣的發行量加權股價報酬指數(後文簡稱報酬指數,會計入每年
    綠角財經筆記中,綠角中文書局有介紹一本理財書,史雲生的逆向操作法則 。上網路書店找尋後,可惜台灣已經絕版,於是轉往拍賣網站尋找總算買到一本。(似乎有改書名再版了) 日前翻開讀了導讀,覺得越看越不順眼,導讀者的引言根本與本書的投資理唸完全相反阿,還在文中提到:  真的這麼神奇嗎?股票型基金的績效何
    富足人生:要錢還是要命 富足人生:要錢還是要命 Your money or your life : transforming your relationship with money and achieving financial independence (你的錢或你的生活:改變你與金錢的關係,
    半農半X的生活 過去幾年身邊出了幾個熱門的新名詞: 斜槓:多元工作、多元收入、多能力結合。 FIRE:(Financial Independence, Retire Early 財務自由,提早退休) 為何會特別注到這些類別的資訊呢?自從使用指數化投資後,其實就開始思索[第二人生]的規劃
    多年前就開始利用公共圖書館借閱書籍,最近才發現公共電子書平台也越來越方便了,每個縣市的圖書館也都有提供一樣的平台,一改以往的公部門常見的不和群,這些電子書平台現在是由HyRead 提供服務。 入口網站 不過各縣市間的帳戶並沒有互通,入口網址也不同,並且所提供的電子書在各館有些不同,猜想是各縣市的經費
    一切從儲蓄開始 1.儲蓄: 假若你沒錢投資,就甭談要賺2%,5%,甚或10%的報酬率。    2.指數: 這項基本的投資策略(指數化投資)的績效表現,打敗了市面上銷售的數千檔股票及債券基金,只輸給少數幾檔而已。    3.分散投資: 分散投資各類股票 ,各種資產,各個市場,且分批佈局。 重新調
    今天想講的主題是『勝率』,而主角當然就是股票囉!我剛剛在某個網站看到了這張圖,並且有這樣一句標題: 風險、獲利、勝率 – 最多只能抓住其中兩個 我不知道大家對於股票的勝率怎麼估算,如果是以我這種買入並持有,股利再投入的投資方式。我在意的是台灣的發行量加權股價報酬指數(後文簡稱報酬指數,會計入每年
    綠角財經筆記中,綠角中文書局有介紹一本理財書,史雲生的逆向操作法則 。上網路書店找尋後,可惜台灣已經絕版,於是轉往拍賣網站尋找總算買到一本。(似乎有改書名再版了) 日前翻開讀了導讀,覺得越看越不順眼,導讀者的引言根本與本書的投資理唸完全相反阿,還在文中提到:  真的這麼神奇嗎?股票型基金的績效何
    你可能也想看
    Google News 追蹤
    Thumbnail
    嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
    Thumbnail
    有學過統計的人都知道,所謂的平均有許多不同的定義,我們今天要來學習在金融財務當中常見的平均方法。 這些平均方式可能是用在績效的結果,也可能是用在分析財務報表。 這些統計有時候差之毫釐、失之千里,我們在理解不同的統計分析跟看其結果時,不可不慎。 本篇文章簡單介紹5種平均數
    Thumbnail
      前面說明了所謂「假設檢定」的邏輯,也就是推論統計的基礎。但前面都還只是概念的階段,目前沒有真正進行任何的操作──還沒有提到推論統計的技術。   這篇其實有點像是一個過渡,是將前面的概念銜接到下一篇t分數之間的過程,也可以說是稍微解釋一下t檢定怎麼發展出來的。
    隨因為推論統計邏輯明顯有問題 心理學實驗看到的 p value是 P(Data| Hyptohesis), 也就是假設成立的情況下拿到這樣的資料的機率 以下是大家常見的推論步驟: 先設一個虛無假設 (H0) 拿資料, 算 p value ( = P(Data | Hypothesis)
    Thumbnail
    選舉民調是預測選舉結果的重要工具。然而,如果我們不了解樣本和母體的概念,就很容易被民調結果誤導。 在本文中,我們將介紹樣本和母體的概念,以及它們對民調結果的影響。我們還將提供一些在閱讀民調報告時的注意事項。
    Thumbnail
    會,因為日常生活中充斥著各式統計報告,若不懂統計,容易被誤導。具有統計概念可以幫助我們找出對的統計報告,做更明智的做出決策。一般人可以先學習如何判讀統計報告和留意統計的應用開始,培養如何獨立思考。
    Thumbnail
    接續上一篇,繼續來講如何從常態分布的機率進行假設檢定,進而推論母體的平均數吧! 這篇會提到否證的邏輯、魔法數字0.5以及統計檢定到底是什麼這三個主題。
    Thumbnail
     當開啟試算表(EXCEL等)的累加(SUM)及離散度,標準差(STDEV)的運算功能後,逐一統計的累進報票式選票統計表就可以退休了,而且全國一萬七千多所的數據不待一所所列出,就可以用較小選區(例如嘉義市198所,宜蘭縣431所等)的統計過程證明統計結果都是正確的,尤其是將計算式列出(隱藏前面的
    Thumbnail
      在上一篇文章解釋了常態分布怎麼幫助我們計算事件發生的機率,而更之前也看過了抽樣分布是如何形成常態分布的過程,現在就要利用這兩件事情來慢慢帶出什麼是統計學中的「假設檢定」了。
    Thumbnail
    第一堂學生創新團隊的點評 我們的統計在社會科學裡面,它到底是怎麼樣產生的,我們今天要算這個統計學,要送統計,他們本身要有Raw data,這樣才有辦法進行運用,如:我們要怎麼算平均身高如下是:   「全部身高」除以「人數」等於 每個人幾公分  所以我們要設計如何用電腦計算 ,要「input」
    Thumbnail
    嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
    Thumbnail
    有學過統計的人都知道,所謂的平均有許多不同的定義,我們今天要來學習在金融財務當中常見的平均方法。 這些平均方式可能是用在績效的結果,也可能是用在分析財務報表。 這些統計有時候差之毫釐、失之千里,我們在理解不同的統計分析跟看其結果時,不可不慎。 本篇文章簡單介紹5種平均數
    Thumbnail
      前面說明了所謂「假設檢定」的邏輯,也就是推論統計的基礎。但前面都還只是概念的階段,目前沒有真正進行任何的操作──還沒有提到推論統計的技術。   這篇其實有點像是一個過渡,是將前面的概念銜接到下一篇t分數之間的過程,也可以說是稍微解釋一下t檢定怎麼發展出來的。
    隨因為推論統計邏輯明顯有問題 心理學實驗看到的 p value是 P(Data| Hyptohesis), 也就是假設成立的情況下拿到這樣的資料的機率 以下是大家常見的推論步驟: 先設一個虛無假設 (H0) 拿資料, 算 p value ( = P(Data | Hypothesis)
    Thumbnail
    選舉民調是預測選舉結果的重要工具。然而,如果我們不了解樣本和母體的概念,就很容易被民調結果誤導。 在本文中,我們將介紹樣本和母體的概念,以及它們對民調結果的影響。我們還將提供一些在閱讀民調報告時的注意事項。
    Thumbnail
    會,因為日常生活中充斥著各式統計報告,若不懂統計,容易被誤導。具有統計概念可以幫助我們找出對的統計報告,做更明智的做出決策。一般人可以先學習如何判讀統計報告和留意統計的應用開始,培養如何獨立思考。
    Thumbnail
    接續上一篇,繼續來講如何從常態分布的機率進行假設檢定,進而推論母體的平均數吧! 這篇會提到否證的邏輯、魔法數字0.5以及統計檢定到底是什麼這三個主題。
    Thumbnail
     當開啟試算表(EXCEL等)的累加(SUM)及離散度,標準差(STDEV)的運算功能後,逐一統計的累進報票式選票統計表就可以退休了,而且全國一萬七千多所的數據不待一所所列出,就可以用較小選區(例如嘉義市198所,宜蘭縣431所等)的統計過程證明統計結果都是正確的,尤其是將計算式列出(隱藏前面的
    Thumbnail
      在上一篇文章解釋了常態分布怎麼幫助我們計算事件發生的機率,而更之前也看過了抽樣分布是如何形成常態分布的過程,現在就要利用這兩件事情來慢慢帶出什麼是統計學中的「假設檢定」了。
    Thumbnail
    第一堂學生創新團隊的點評 我們的統計在社會科學裡面,它到底是怎麼樣產生的,我們今天要算這個統計學,要送統計,他們本身要有Raw data,這樣才有辦法進行運用,如:我們要怎麼算平均身高如下是:   「全部身高」除以「人數」等於 每個人幾公分  所以我們要設計如何用電腦計算 ,要「input」