R-square(決定係數,R2)是用在迴歸任務中,衡量模型解釋目標變數變異(波動)程度的一個指標。
1. 底層邏輯:它在衡量什麼?
想像你在預測房價。房價總是在波動,有些貴、有些便宜。R2就是在回答這個問題:「我的模型到底解釋了房價總波動中的多少比例?」。
- 總體波動(TSS, Total Sum of Squares):這是你所有房價資料距離「平均房價」的總差距。它代表了資料本身固有的總變異量。
- 模型誤差(RSS, Residual Sum of Squares):這是你的模型「預測出來的房價」與「實際房價」之間的總差距。
R2的計算,就是用總波動減去模型誤差後,看看還剩下多少比例的波動是被你的模型成功解釋的。
R2 = 1 - \frac{\text{模型殘差平方和 (RSS)}}{\text{總變異平方和 (TSS)}} \quad $$
2. 一句話總結:
簡單來說,它就是一個分數,告訴你你的迴歸模型到底解釋了多少資料的總體波動,數值越接近 $1$,代表你的模型越神準!
知識點延伸:R-square的判讀與應用
$R^2$的值介於 $0$ 到 $1$ 之間,透過理解這個範圍,我們可以判斷模型的效能:
R² 值範圍意義解釋 (生活化)模型的解釋力結論R² ≈ 1你的模型神準!幾乎所有房價的漲跌都被模型抓住了。強 (完美擬合)模型非常可靠。R² ≈ 0.5模型解釋了一半的波動,還不錯,但仍有一半的變異量是未知因素。中等模型具一定參考價值。R² ≈ 0你的模型跟「猜平均數」沒兩樣,沒有任何解釋能力。弱 (基準線)模型無效,需要調整。R² < 0你的模型比直接猜平均值還爛!負向 (非常弱)模型設計有嚴重問題。
$R^2$常用於評估多種迴歸模型,例如:線性迴歸、Lasso 迴歸、嶺迴歸(Ridge Regression)、支援向量迴歸(SVR)、以及決策樹迴歸(Decision Tree Regressor)。
應用案例:手搖飲店長的焦慮
假設你是一名**「頂尖手搖飲店長」**,想預測明天會賣出幾杯珍珠奶茶(連續數值)。
場景:店長老王與 AI 規劃師
店長老王:「我訓練了一個模型,想知道明天奶茶銷售量,我的 $R^2$ 是 $0.2$。這是不是代表我的模型有 $20%$ 的準確度?」
iPAS AI 規劃師(你):「老王,冷靜點!$R^2$不是準確率,它是解釋力!$R^2 = 0.2$ 意味著,你的模型只解釋了每日奶茶銷售量總波動中的 20%。剩下的 $80%$ 波動(可能是天氣、競爭者、隔壁工地噪音等)你的模型根本沒捕捉到!」
老王:「啊!那我該怎麼改進?」
iPAS AI 規劃師(你):「你需要把天氣、氣溫、甚至是隔壁午餐特價日等變數加進去。當你加入氣溫這個強大特徵後,如果你的 $R^2$ 飆升到 $0.75$,這才代表你的模型成功解釋了 75% 的銷售波動,遠比你光靠猜平均值要好得多!」
這個例子告訴我們:
- $R^2$ 是一個相對指標,它的基準線是 $0$(即只猜平均數)。
- 提高 $R^2$ 的關鍵,是找到能解釋目標變數波動的關鍵特徵。