大家好!我是露西
今天我們不聊深奧的數學公式,來聊聊怎麼讓「預測」這件事變得更準。在統計學,特別是像「多元迴歸分析(複迴歸)」這種想用A、B、C去預測D的工具中,有兩個名詞聽起來很像,卻是整個分析的靈魂角色,它們就是「誤差(Error)」與「殘差(Residual)」。
聽起來很學術?別怕,我們用一個夏天的例子把它們變簡單!
情境:我想預測今天能賣出幾支冰淇淋
假設我開了一家冰淇淋店,我希望有個模型能預測每天的銷量,這樣我才好備料。我根據經驗,覺得「天氣溫度」和「當天是不是假日」應該是關鍵。
於是,我建立了一個簡單的預測模型:
冰淇淋銷量 = a * 溫度 + b * (是否為假日) + c
1. 誤差(Error):那個我們永遠無法完全掌握的「神祕力量」
我的模型看起來不錯,但現實世界總比模型複雜。想一想,除了溫度和假日,還有哪些事會影響冰淇淋銷量?
- 附近剛好辦了一場園遊會(銷量暴增!)
- 隔壁開了一家新的手搖飲店(銷量被搶走…)
- 今天大家突然想減肥(沒人買…)
- 客人的心情、口袋裡的零錢、甚至是隨機的運氣
這些所有「沒有被放進我模型裡」的、我們無法測量或未曾想到的隨機因素,它們共同造成的影響,就是所謂的「誤差(Error)」。
你可以把它想像成「理論上最完美的預測」和「真實世界發生的結果」之間,那道看不見的鴻溝。它是客觀存在,但我們永遠無法直接測量它,因為我們不可能知道宇宙中所有影響冰淇淋銷量的因素。
簡單說,誤差(Error)就是:現實的複雜 V.S. 模型的簡化,所產生的「天生差距」。
2. 殘差(Residual):模型下班後,我們可以檢討的「帳面數字」
好,現在讓我們實際來用模型預測看看。
假設今天氣溫30度,而且是假日。我的模型算出來,預計可以賣出 200 支冰淇淋。
到了晚上結帳,我盤點了一下,今天實際上賣出了 215 支。
看到了嗎?這中間差了 15 支。這個「實際觀測值(215支)」和「模型預測值(200支)」之間的差距,就是「殘差(Residual)」。
殘差 = 實際銷量 - 預測銷量 = 215 - 200 = 15
殘差是我可以明確計算出來的數字。我可以每天都去算這個數字,看看我的模型預測得準不準。
- 如果殘差是正的(像今天這樣),代表模型「低估」了銷量。
- 如果殘差是負的(例如模型預測200支,實際只賣180支),代表模型「高估」了銷量。
- 如果殘差很接近0,那真是太棒了,代表我的模型神準!
簡單說,殘差(Residual)就是:模型交出的「成績單」跟「實際結果」之間的「飯後檢討」。
總結:它們到底差在哪?

我們之所以要關心「殘差」,就是因為它是「誤差」的代言人。我們雖然看不到神祕的誤差,但可以透過分析算得出來的殘差,去猜測誤差大概長什麼樣子,進而判斷我們的預測模型到底好不好、有沒有改進的空間。
希望這個賣冰淇淋的例子,能幫助你輕鬆理解這兩個概念!統計學其實就藏在我們的日常生活中。