想預測未來?先搞懂「殘差」與「誤差」:用賣冰淇淋的例子輕鬆學統計

更新於 發佈於 閱讀時間約 4 分鐘

大家好!我是露西

今天我們不聊深奧的數學公式,來聊聊怎麼讓「預測」這件事變得更準。在統計學,特別是像「多元迴歸分析(複迴歸)」這種想用A、B、C去預測D的工具中,有兩個名詞聽起來很像,卻是整個分析的靈魂角色,它們就是「誤差(Error)」與「殘差(Residual)」。

聽起來很學術?別怕,我們用一個夏天的例子把它們變簡單!

情境:我想預測今天能賣出幾支冰淇淋

假設我開了一家冰淇淋店,我希望有個模型能預測每天的銷量,這樣我才好備料。我根據經驗,覺得「天氣溫度」「當天是不是假日」應該是關鍵。

於是,我建立了一個簡單的預測模型:

冰淇淋銷量 = a * 溫度 + b * (是否為假日) + c

1. 誤差(Error):那個我們永遠無法完全掌握的「神祕力量」

我的模型看起來不錯,但現實世界總比模型複雜。想一想,除了溫度和假日,還有哪些事會影響冰淇淋銷量?

  • 附近剛好辦了一場園遊會(銷量暴增!)
  • 隔壁開了一家新的手搖飲店(銷量被搶走…)
  • 今天大家突然想減肥(沒人買…)
  • 客人的心情、口袋裡的零錢、甚至是隨機的運氣

這些所有「沒有被放進我模型裡」的、我們無法測量或未曾想到的隨機因素,它們共同造成的影響,就是所謂的「誤差(Error)」。

你可以把它想像成「理論上最完美的預測」和「真實世界發生的結果」之間,那道看不見的鴻溝。它是客觀存在,但我們永遠無法直接測量它,因為我們不可能知道宇宙中所有影響冰淇淋銷量的因素。

簡單說,誤差(Error)就是:現實的複雜 V.S. 模型的簡化,所產生的「天生差距」。

2. 殘差(Residual):模型下班後,我們可以檢討的「帳面數字」

好,現在讓我們實際來用模型預測看看。

假設今天氣溫30度,而且是假日。我的模型算出來,預計可以賣出 200 支冰淇淋。

到了晚上結帳,我盤點了一下,今天實際上賣出了 215 支。

看到了嗎?這中間差了 15 支。這個「實際觀測值(215支)」和「模型預測值(200支)」之間的差距,就是「殘差(Residual)」。

殘差 = 實際銷量 - 預測銷量 = 215 - 200 = 15

殘差是我可以明確計算出來的數字。我可以每天都去算這個數字,看看我的模型預測得準不準。

  • 如果殘差是正的(像今天這樣),代表模型「低估」了銷量。
  • 如果殘差是負的(例如模型預測200支,實際只賣180支),代表模型「高估」了銷量。
  • 如果殘差很接近0,那真是太棒了,代表我的模型神準!

簡單說,殘差(Residual)就是:模型交出的「成績單」跟「實際結果」之間的「飯後檢討」。

總結:它們到底差在哪?

raw-image

我們之所以要關心「殘差」,就是因為它是「誤差」的代言人。我們雖然看不到神祕的誤差,但可以透過分析算得出來的殘差,去猜測誤差大概長什麼樣子,進而判斷我們的預測模型到底好不好、有沒有改進的空間。

希望這個賣冰淇淋的例子,能幫助你輕鬆理解這兩個概念!統計學其實就藏在我們的日常生活中。





留言
avatar-img
留言分享你的想法!
avatar-img
慵懶貓系的小墨魚:數據外的日常觀察
0會員
14內容數
小墨魚,一位白天擅長資料分析與統計建模的數據工作者,夜裡則沉浸在書本與文字裡,透過閱讀與寫作與世界對話。工作之餘,也兼職統計家教,協助學生理解複雜的統計概念與軟體操作。這裡記錄我的書評、生活觀察、科技碎念,有時也寫下關於時間與情緒的小片段。願這些文字,成為我們在日常中相遇的溫柔片刻。
你可能也想看
Thumbnail
常常被朋友問「哪裡買的?」嗎?透過蝦皮分潤計畫,把日常購物的分享多加一個步驟,就能轉換成現金回饋。門檻低、申請簡單,特別適合學生與上班族,讓零碎時間也能創造小確幸。
Thumbnail
常常被朋友問「哪裡買的?」嗎?透過蝦皮分潤計畫,把日常購物的分享多加一個步驟,就能轉換成現金回饋。門檻低、申請簡單,特別適合學生與上班族,讓零碎時間也能創造小確幸。
Thumbnail
  前面說明了所謂「假設檢定」的邏輯,也就是推論統計的基礎。但前面都還只是概念的階段,目前沒有真正進行任何的操作──還沒有提到推論統計的技術。   這篇其實有點像是一個過渡,是將前面的概念銜接到下一篇t分數之間的過程,也可以說是稍微解釋一下t檢定怎麼發展出來的。
Thumbnail
  前面說明了所謂「假設檢定」的邏輯,也就是推論統計的基礎。但前面都還只是概念的階段,目前沒有真正進行任何的操作──還沒有提到推論統計的技術。   這篇其實有點像是一個過渡,是將前面的概念銜接到下一篇t分數之間的過程,也可以說是稍微解釋一下t檢定怎麼發展出來的。
Thumbnail
選舉民調是預測選舉結果的重要工具。然而,如果我們不了解樣本和母體的概念,就很容易被民調結果誤導。 在本文中,我們將介紹樣本和母體的概念,以及它們對民調結果的影響。我們還將提供一些在閱讀民調報告時的注意事項。
Thumbnail
選舉民調是預測選舉結果的重要工具。然而,如果我們不了解樣本和母體的概念,就很容易被民調結果誤導。 在本文中,我們將介紹樣本和母體的概念,以及它們對民調結果的影響。我們還將提供一些在閱讀民調報告時的注意事項。
Thumbnail
接續上一篇,繼續來講如何從常態分布的機率進行假設檢定,進而推論母體的平均數吧! 這篇會提到否證的邏輯、魔法數字0.5以及統計檢定到底是什麼這三個主題。
Thumbnail
接續上一篇,繼續來講如何從常態分布的機率進行假設檢定,進而推論母體的平均數吧! 這篇會提到否證的邏輯、魔法數字0.5以及統計檢定到底是什麼這三個主題。
Thumbnail
 當開啟試算表(EXCEL等)的累加(SUM)及離散度,標準差(STDEV)的運算功能後,逐一統計的累進報票式選票統計表就可以退休了,而且全國一萬七千多所的數據不待一所所列出,就可以用較小選區(例如嘉義市198所,宜蘭縣431所等)的統計過程證明統計結果都是正確的,尤其是將計算式列出(隱藏前面的
Thumbnail
 當開啟試算表(EXCEL等)的累加(SUM)及離散度,標準差(STDEV)的運算功能後,逐一統計的累進報票式選票統計表就可以退休了,而且全國一萬七千多所的數據不待一所所列出,就可以用較小選區(例如嘉義市198所,宜蘭縣431所等)的統計過程證明統計結果都是正確的,尤其是將計算式列出(隱藏前面的
Thumbnail
  在上一篇文章解釋了常態分布怎麼幫助我們計算事件發生的機率,而更之前也看過了抽樣分布是如何形成常態分布的過程,現在就要利用這兩件事情來慢慢帶出什麼是統計學中的「假設檢定」了。
Thumbnail
  在上一篇文章解釋了常態分布怎麼幫助我們計算事件發生的機率,而更之前也看過了抽樣分布是如何形成常態分布的過程,現在就要利用這兩件事情來慢慢帶出什麼是統計學中的「假設檢定」了。
Thumbnail
依照中央極限定理,我們可以得知(獨立且隨機樣本的)抽樣分布最終會形成常態分佈,那麼這件事情到底為什麼很重要呢? 這篇文章就來介紹一些常態分布的基本特性,以及最重要的──常態分布怎麼幫助我們計算機率。
Thumbnail
依照中央極限定理,我們可以得知(獨立且隨機樣本的)抽樣分布最終會形成常態分佈,那麼這件事情到底為什麼很重要呢? 這篇文章就來介紹一些常態分布的基本特性,以及最重要的──常態分布怎麼幫助我們計算機率。
Thumbnail
由 醜媳婦總是要見公婆-績效報表 的最佳化報表可知,無論我們將連續創高或創低的K棒數如何改變,均不可能讓淨利變正,代表我們不可能靠單一個指標值來獲利,此時改善方式只能再回到觀察圖表,由圖表中的訊號觀察是否有什麼改善方式。 由圖表中可發現當標示的紅點或綠點離均線越遠,則進場的時機點越好,如果可以增加
Thumbnail
由 醜媳婦總是要見公婆-績效報表 的最佳化報表可知,無論我們將連續創高或創低的K棒數如何改變,均不可能讓淨利變正,代表我們不可能靠單一個指標值來獲利,此時改善方式只能再回到觀察圖表,由圖表中的訊號觀察是否有什麼改善方式。 由圖表中可發現當標示的紅點或綠點離均線越遠,則進場的時機點越好,如果可以增加
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News