統計急救箱─什麼是推論統計?

更新於 發佈於 閱讀時間約 5 分鐘

  自從上一篇當中宣布要進到推論統計的部分後,我就不斷在思考到底該怎麼切入推論統計的解釋。

  推論統計不只是學生在學習的時候會感覺到很頭痛,其實連解釋推論統計都滿不容易的。仔細回想自己逐漸了解推論統計的過程,真的很仰賴不斷琢磨後突然頓悟的那一瞬間。

  不知不覺就想了三週,雖然不見得想到了最好的解釋,但還是先開始動筆吧。希望之後的文章都能更加聚焦一些,也能縮短一下篇幅。

  這篇文的目標就是回答「到底推論統計是什麼?」這個問題。


描述統計與推論統計

  這兩種統計分類就如同它們的名字一樣,其實是有著不同功能的統計技術。

  • 敘述統計:目的是對資料(資訊)進行描述。
  • 推論統計:目的是利用可觀測到的部分資料推論出全體資料的特性。

描述統計的用途滿好懂的,其實也可以說是一種簡化、歸納、整理資料的技術。例如台北一年下雨幾天(計數)、不同手搖飲料店的珍奶平均多少錢(平均值)、台灣人薪資水準的中間值(中位數)等等。這些敘述統計都是把很龐大的一筆資料簡化成一個好懂的數值,藉此傳遞資訊。

  那我們為什麼需要推論統計呢?推論統計到底推論的是什麼?

  針對一群數字進行描述統計,那就只能理解那一群數字了。例如我描述了某間小學1年3班的數學小考平均成績,跟1年4班的同學就沒有關係,跟2年3班的同學也不會有關係。這個平均成績就只能代表1年3班,不能超出這個班級。

  假如我想知道的是整間學校的數學考試平均數也不難,只要知道全校同學的數學成績就好了。

  如果我更過分,想要知道的是全台北市所有國小的數學考試平均分數呢?好像難度就比較高了。那如果是全台灣小學呢?這理論上其實還是能做到的。只是在這個越來越大的範圍當中,我們發現執行起來會越來越不容易,同時執行成本也會越來越高。

  學校本來就有考試,因此數學成績還算比較容易取得。但世界上存在很多我們根本難以通盤調查的資料,例如全台灣成人的智力分數。在實務上不僅僅是成本考量,更可能是有些人他就不願意提供這些資料。因此我們不可能想要研究什麼,就去對全台灣人鉅細靡遺地做調查。

  蒐集不到完整的資料該怎麼辦呢?那我們就只好改用其他替代方案。例如在網路上散播問卷請人填寫,或者從每個縣市、每個區域抽出一些人當作是該區域的代表。

  無論用什麼方法,都有一個共通點──我們蒐集的只有一部份的資料(每個區域只蒐集一些人的數據),但我們想要了解的卻是整體(全台灣人)的特性。這就是推論統計可以幫助我們的時候了。


母體、抽樣以及樣本是什麼?

  在統計學上有一些術語來描述上面所提到的事情。假如我們想要了解全台灣成人的智力平均得分,這個「全台灣人」被稱為母體 (population)。

  而我們挑選了其中一些人出來測量他們的分數,這些實際上被測量到的人,我們稱為樣本 (sample)。

  從母體挑選樣本的過程,我們稱為抽樣 (sampling,這是個動詞)。 ​

  下圖是一個摸彩的例子。假如公司尾牙要抽獎,主持人請數據分析小組的4位同仁上台,每個人從袋子裡面摸出一顆球,根據顏色來決定獎品。這個黑色大袋子裡面所有的球就是母體;4個人抽出的球就叫做樣本;而從袋子裡面摸出球來的這個行為,就稱為抽樣。

母體經過抽樣會產生出樣本

母體經過抽樣會產生出樣本

  實際上我們是沒辦法看到袋子裡面的球,只能看到抽出來的4顆球長成什麼樣子。所以統計學家就會使用抽出來的球回頭推論袋子裡面的球大概是怎麼樣的分布。

母體是看不見的,所以才需要用樣本來推論

母體是看不見的,所以才需要用樣本來推論

  放在前面的成人智力分數也是一樣的。因為對全台灣成人調查智力是難以實現的(母體未知),因此僅對部分台灣成人進行施測(樣本),並根據樣本得到的結果回頭推論母體的特性。

  光這樣解釋,聽起來有點像是魔法。但也可以理解成用觀察到的數據,用符合邏輯與數學原理的方式去「猜測」母體的樣貌。事實上推論統計推估出來的往往會是一個範圍,而不是鐵口直斷就說是哪個數值。


推論統計比敘述統計優秀嗎?

  推論統計在統計的學習路徑當中,一定是比敘述統計更晚學習。同時,多數學生應該也會認為推論統計比敘述統計更加困難不好理解。在社會科學研究當中,論文的發表通常也會以推論統計作為主要分析手段。

  這是否就表示推論統計比敘述統計更為優秀,如果可以我們應該盡量使用推論統計而不是敘述統計呢?

  其實並不是這樣的。如同前面提到的,敘述統計與推論統計可以說是功能不同的兩種統計技術,只不過推論統計需要使用到敘述統計的技術而已。在實務上,更應該先知道自己要用統計「回答什麼問題」,才能接著決定要用什麼統計技術。

應該根據目的選擇使用推論統計或描述統計

應該根據目的選擇使用推論統計或描述統計

  如果是像上面所說,我們難以蒐集到全體母體的資料,只好退而求其次蒐集部分樣本。但我們還是想要知道母體的特徵(我們關注的還是母體),此時就應該使用推論統計。

  但也有很多時候,母體的資料(我們想關注的群體)已經存在了。例如某電商公司想要分析會員們購買某個品項的平均數目,那他們只要使用敘述統計就好。因為對於當前的目的來說,非會員的購買行為不是他們所關注的問題,不需要將統計結果推論到非會員身上。

  所以先決定問題(通常也會同時決定母體),才是真正決定要使用哪一種統計技術的因素喔!




  母體除了會影響我們要用什麼統計技術之外,抽樣的方法其實也有可能會影響到推論統計的準確性。

  推論統計乍聽之下簡直有點像占卜,不過慢慢就會知道並沒有這麼神奇,很多估計與猜測都是建立在許多的假設前提上才能進行的。

  以上就是關於推論統計的概念性介紹囉!實際要怎麼做推論,後面再慢慢說明吧。

avatar-img
52會員
32內容數
大學念文組,碩士班的報告突然要用統計了怎麼辦?沒學過統計怎麼寫量化學位論文?跟著統計書操作都沒問題,但報表都不知道在講什麼,也不知道做的分析到底對不對?作者在應用統計的路上跌跌撞撞也差不多十年了,希望有些心得可以幫助到有這些困擾的你。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
統計急救箱的沙龍 的其他內容
前面兩篇會刻意提到共變數,除了因為共變數在多變量統計裡面非常重要之外,最主要的原因其實是為了解釋皮爾森相關係數而做鋪陳。 相關係數的種類也相當的繁多,這裡介紹的皮爾森相關大概是最常看到的一種啦~
如果看過上一篇還不太確定共變數要怎麼計算,這篇會用圖像的方式來進行解釋,最後也會提及共變數的小缺點。
  平均數、標準差、標準分數等等,都是用在單一群分數上的統計。不過在現實中,大多數時候我們不只想看一群分數,更想要看很多群分數之間的關聯性。 這篇與下一篇當中,就會介紹最常用來看關聯性的統計技術──共變數與皮爾森積差相關。
在知道平均數與標準差之後,就可以進一步了解什麼是所謂的「標準分數」了。 標準分數的重要用途是可以幫助我們比較不同單位、不同分散程度的數值。 以概念來說,跟百分等級(PR)有點類似的味道吧。 標準分數在後續的統計當中也很常會出現的。
通常討論標準差都會用面積的方式來解釋,不過有天我想也許可以用空間來解釋。 但這樣解釋對於標準差和變異數的理解似乎並不完整,可以當個有趣的觀點看看就好。
  雖然平均數可以拿來代表一群數值,但一整群數字之中還有另一個很重要的資訊,那就是這群數字有多分散。而變異數 (variance) 或標準差 (standard deviation,簡寫為SD) 就是在描述一群數字的分散程度。
前面兩篇會刻意提到共變數,除了因為共變數在多變量統計裡面非常重要之外,最主要的原因其實是為了解釋皮爾森相關係數而做鋪陳。 相關係數的種類也相當的繁多,這裡介紹的皮爾森相關大概是最常看到的一種啦~
如果看過上一篇還不太確定共變數要怎麼計算,這篇會用圖像的方式來進行解釋,最後也會提及共變數的小缺點。
  平均數、標準差、標準分數等等,都是用在單一群分數上的統計。不過在現實中,大多數時候我們不只想看一群分數,更想要看很多群分數之間的關聯性。 這篇與下一篇當中,就會介紹最常用來看關聯性的統計技術──共變數與皮爾森積差相關。
在知道平均數與標準差之後,就可以進一步了解什麼是所謂的「標準分數」了。 標準分數的重要用途是可以幫助我們比較不同單位、不同分散程度的數值。 以概念來說,跟百分等級(PR)有點類似的味道吧。 標準分數在後續的統計當中也很常會出現的。
通常討論標準差都會用面積的方式來解釋,不過有天我想也許可以用空間來解釋。 但這樣解釋對於標準差和變異數的理解似乎並不完整,可以當個有趣的觀點看看就好。
  雖然平均數可以拿來代表一群數值,但一整群數字之中還有另一個很重要的資訊,那就是這群數字有多分散。而變異數 (variance) 或標準差 (standard deviation,簡寫為SD) 就是在描述一群數字的分散程度。
你可能也想看
Google News 追蹤
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
2-1 取得統計資料 統計學,指的就是搜集、整理、表現及分析資料的方法。 一般來說,當我們想要知道對於某件事,大眾的普遍想法時,我們可能會透過調查的方式,得到想要的答案。也就是說,我們可能透過問卷或者是電訪的方式,直接收集所要的母體資料。舉個例子來說,在總統選舉時,當侯選人舉辦政見發表會後,為了
Thumbnail
抽樣方式影響調查的樣本結果是否可以代表母體狀況。方便抽樣可能導致偏誤,應考慮更系統化的抽樣方法,例如簡單隨機抽樣,以確保樣本情況可以回推母體情況。文章透過範例說明,解釋樣本和母體之間關聯。
隨因為推論統計邏輯明顯有問題 心理學實驗看到的 p value是 P(Data| Hyptohesis), 也就是假設成立的情況下拿到這樣的資料的機率 以下是大家常見的推論步驟: 先設一個虛無假設 (H0) 拿資料, 算 p value ( = P(Data | Hypothesis)
Thumbnail
選舉民調是預測選舉結果的重要工具。然而,如果我們不了解樣本和母體的概念,就很容易被民調結果誤導。 在本文中,我們將介紹樣本和母體的概念,以及它們對民調結果的影響。我們還將提供一些在閱讀民調報告時的注意事項。
Thumbnail
會,因為日常生活中充斥著各式統計報告,若不懂統計,容易被誤導。具有統計概念可以幫助我們找出對的統計報告,做更明智的做出決策。一般人可以先學習如何判讀統計報告和留意統計的應用開始,培養如何獨立思考。
Thumbnail
 當開啟試算表(EXCEL等)的累加(SUM)及離散度,標準差(STDEV)的運算功能後,逐一統計的累進報票式選票統計表就可以退休了,而且全國一萬七千多所的數據不待一所所列出,就可以用較小選區(例如嘉義市198所,宜蘭縣431所等)的統計過程證明統計結果都是正確的,尤其是將計算式列出(隱藏前面的
Thumbnail
本課程為臨護所碩開設,學分為2學分。課程內容包括統計學概論、敘述統計學、電腦在統計上之應用、資料準備、統計推論等。學期作業、考試、評量佔30%至40%,生物統計是基本功,大家加油!
社會計量測試最基本的功能在揭示團體成員及帶領者自己的資訊,尤其關注成員間的連結及連結的理由。社會計量測試通常而言,會經歷暖身、行動、分享、分析、未來計畫與處遇等階段
Thumbnail
我們這個專欄(沙龍)主要關心的是:教育研究中的測量、統計與方法學主題。 坦白說,這個主題在台灣的圈子非常小。因此我們更應該要努力宣講。希望你了解這些訊息之後,對你的的判斷或思考會有啟發。並帶來意象不到的連鎖改變。
Thumbnail
第一堂學生創新團隊的點評 我們的統計在社會科學裡面,它到底是怎麼樣產生的,我們今天要算這個統計學,要送統計,他們本身要有Raw data,這樣才有辦法進行運用,如:我們要怎麼算平均身高如下是:   「全部身高」除以「人數」等於 每個人幾公分  所以我們要設計如何用電腦計算 ,要「input」
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
2-1 取得統計資料 統計學,指的就是搜集、整理、表現及分析資料的方法。 一般來說,當我們想要知道對於某件事,大眾的普遍想法時,我們可能會透過調查的方式,得到想要的答案。也就是說,我們可能透過問卷或者是電訪的方式,直接收集所要的母體資料。舉個例子來說,在總統選舉時,當侯選人舉辦政見發表會後,為了
Thumbnail
抽樣方式影響調查的樣本結果是否可以代表母體狀況。方便抽樣可能導致偏誤,應考慮更系統化的抽樣方法,例如簡單隨機抽樣,以確保樣本情況可以回推母體情況。文章透過範例說明,解釋樣本和母體之間關聯。
隨因為推論統計邏輯明顯有問題 心理學實驗看到的 p value是 P(Data| Hyptohesis), 也就是假設成立的情況下拿到這樣的資料的機率 以下是大家常見的推論步驟: 先設一個虛無假設 (H0) 拿資料, 算 p value ( = P(Data | Hypothesis)
Thumbnail
選舉民調是預測選舉結果的重要工具。然而,如果我們不了解樣本和母體的概念,就很容易被民調結果誤導。 在本文中,我們將介紹樣本和母體的概念,以及它們對民調結果的影響。我們還將提供一些在閱讀民調報告時的注意事項。
Thumbnail
會,因為日常生活中充斥著各式統計報告,若不懂統計,容易被誤導。具有統計概念可以幫助我們找出對的統計報告,做更明智的做出決策。一般人可以先學習如何判讀統計報告和留意統計的應用開始,培養如何獨立思考。
Thumbnail
 當開啟試算表(EXCEL等)的累加(SUM)及離散度,標準差(STDEV)的運算功能後,逐一統計的累進報票式選票統計表就可以退休了,而且全國一萬七千多所的數據不待一所所列出,就可以用較小選區(例如嘉義市198所,宜蘭縣431所等)的統計過程證明統計結果都是正確的,尤其是將計算式列出(隱藏前面的
Thumbnail
本課程為臨護所碩開設,學分為2學分。課程內容包括統計學概論、敘述統計學、電腦在統計上之應用、資料準備、統計推論等。學期作業、考試、評量佔30%至40%,生物統計是基本功,大家加油!
社會計量測試最基本的功能在揭示團體成員及帶領者自己的資訊,尤其關注成員間的連結及連結的理由。社會計量測試通常而言,會經歷暖身、行動、分享、分析、未來計畫與處遇等階段
Thumbnail
我們這個專欄(沙龍)主要關心的是:教育研究中的測量、統計與方法學主題。 坦白說,這個主題在台灣的圈子非常小。因此我們更應該要努力宣講。希望你了解這些訊息之後,對你的的判斷或思考會有啟發。並帶來意象不到的連鎖改變。
Thumbnail
第一堂學生創新團隊的點評 我們的統計在社會科學裡面,它到底是怎麼樣產生的,我們今天要算這個統計學,要送統計,他們本身要有Raw data,這樣才有辦法進行運用,如:我們要怎麼算平均身高如下是:   「全部身高」除以「人數」等於 每個人幾公分  所以我們要設計如何用電腦計算 ,要「input」