線性回歸幼幼班

更新於 發佈於 閱讀時間約 3 分鐘

本篇內容和圖片來自這個超棒的影片,簡單易懂,還會唱歌給你聽。感謝 StatQuest with Josh Starmer。



線性回歸 (linear regression) 的目的是要找到一條最吻合所有資料點的,過程中使用最小平方法 (least squares) 來找這條線。


好,看不懂。


年齡-財富 (原圖再製)

年齡-財富 (原圖再製)

假設這裡是一個富有的國度,我們想知道在什麼年紀 (x) 會擁有幾千萬 (y)。今天我們找了 9 個人訪問他們的年齡和擁有的千萬數,繪製出這張圖。

現在,想找出一條線,推算出公式,讓我們可以從年齡就知道這個人有多少財富。




線 (原圖再製)

線 (原圖再製)

但要怎麼知道是黑線、紅線、綠線還是藍線比較好呢?

首先用眼睛看就感覺藍線超爛,先拿他開刀。藍線的 y 值是 3.5,給它一個代號 b,b 就是截距 (intercept)。現在藍線有正式的名字了:y=b




殘差 (原圖)

殘差 (原圖)

每一個點跟 y=b 的最短距離叫做殘差 (residual),y=b 跟 (x₁, y₁) 這個點的距離為 b-y₁;y=b 跟 (x₂, y₂) 的距離為 b-y₂,以此類推。

然後會發現有些差值是負的,因為 y 值高於 b。這時把所有差值做平方,結果就會全都是正數。



寫成數學式:

  • 式1、(b-y₁)² + (b-y₂)² + (b-y₃)² + (b-y₄)² + (b-y₅)² + (b-y₆)² + (b-y₇)² + (b-y₈)² + (b-y₉)² = 24.62

先假設是這個數字,24.62 就是殘差平方和 (sum of squared residuals)


但是,單看這條線產生的殘差平方和是看不出什麼的,所以要用很多條線產生出很多個殘差平方和,到那時才有本錢看要選哪一條。

raw-image


現在把線旋轉一點點,發現算出來的殘差平方和 (18.72) 變小了!代表這條線比剛才的水平線還吻合這些資料點。



raw-image


再旋轉一點點,殘差平方和 (14.05) 又更小,線又更吻合資料點。



raw-image


旋轉到一定程度後發現殘差平方和 (31.71) 開始變大了。




有鑑於此,可以知道有一條最好的線藏在這堆線當中。為了知道這條線,首先需要引入一般線性方程式 (generic line equation) 的概念:y = ax + b


a 是斜率 (slope)、b 是截距 (intercept)。剛才的水平線 y = b 因為沒有斜率,所以沒有 ax,但我們已知最好的線不會是水平線,是斜線,所以就會需要 ax。


現在數學式變成這樣:

  • 式2、((ax₁ + b)-y₁)²+((ax₂ + b)-y₂)²+((ax₃ + b)-y₃)²+...

看起來很複雜,但其實只是把式1的 y₁、y₂ ... 代換成 ax + b 而已。概念不變,都是計算出每個點與線之間的距離,平方後相加,試圖找出最終值最小的線,這就是最小平方法 (least squares)。


接著就要來找最好的線啦!


殘差平方和 (原圖)

殘差平方和 (原圖)


這張圖每個點的 y 值都是一個殘差平方和,x 軸對應的是每一條線。

現在先不理 x 軸看到的線,以導數 (derivative) 來得知哪一條線是最好的。





導數推算斜率 (原圖再製)

導數推算斜率 (原圖再製)

這些殘差平方和連起來像一個 U 形,每個點會有一個切線。

水平線的導數為 0,也就是殘差平方和最小的地方。

我們就是要在眾多的點形成的 U 形中算出切線導數為 0 的點,對應到 x 軸的線,至此就找到最好的那條線了。(別擔心,通常沒有人手算,這件事就交給電腦)



以這 9 個點來說,最好的線是:y = 0.77x + 0.66。


年齡-財富 (原圖再製)

年齡-財富 (原圖再製)


回到一開始的設定,現在可以套公式知道這個富裕國度 10 歲的人擁有 8.36 千萬、20 歲的人擁有 16.06 千萬,以此類推。







真希望我也這麼富裕,但目前只能努力往知識富裕邁進。

留言
avatar-img
留言分享你的想法!
石頭哥-avatar-img
2024/02/25
很好,我愛極了統計,也靠這運用在品管上吃飯快二十餘年了!
筑言筑語-avatar-img
發文者
2024/02/25
石頭哥 我還在入門階段,想慢慢將自己學到的重新組織,以簡單的方式再說一遍,說給自己聽,也說給大家聽~ 如同您 〈從一場高中生職務探索,談分享的力量〉 中提到的一樣!
筑言筑語-avatar-img
發文者
2024/03/03
線性混和效應模型幼幼班提及了這篇文章,趕快過去看看吧!
avatar-img
後面有懶人沙發
19會員
36內容數
語言學.旅遊.夢.一些突發奇想的東西
你可能也想看
Thumbnail
沙龍一直是創作與交流的重要空間,這次 vocus 全面改版了沙龍介面,就是為了讓好內容被好好看見! 你可以自由編排你的沙龍首頁版位,新版手機介面也讓每位訪客都能更快找到感興趣的內容、成為你的支持者。 改版完成後可以在社群媒體分享新版面,並標記 @vocus.official⁠ ♥️ ⁠
Thumbnail
沙龍一直是創作與交流的重要空間,這次 vocus 全面改版了沙龍介面,就是為了讓好內容被好好看見! 你可以自由編排你的沙龍首頁版位,新版手機介面也讓每位訪客都能更快找到感興趣的內容、成為你的支持者。 改版完成後可以在社群媒體分享新版面,並標記 @vocus.official⁠ ♥️ ⁠
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
在進行多層次線性模型(MLM)當中,有時候我們不只會加入層次1的預測變項。我們也會想加入層次2預測變項。本文將介紹加入層次2預測變項的各種模型,並解釋其公式和R語言操作方法。因為內容比較多,所以篇幅比較長。 多層次線性模型(MLM),截距是表示所有學校的平均值。斜率是指模型中自變量的係數,表
Thumbnail
在進行多層次線性模型(MLM)當中,有時候我們不只會加入層次1的預測變項。我們也會想加入層次2預測變項。本文將介紹加入層次2預測變項的各種模型,並解釋其公式和R語言操作方法。因為內容比較多,所以篇幅比較長。 多層次線性模型(MLM),截距是表示所有學校的平均值。斜率是指模型中自變量的係數,表
Thumbnail
高中數學主題練習—過圓上一點之切線
Thumbnail
高中數學主題練習—過圓上一點之切線
Thumbnail
高中數學主題練習—線與圓之關係
Thumbnail
高中數學主題練習—線與圓之關係
Thumbnail
高中數學主題練習—三點共線
Thumbnail
高中數學主題練習—三點共線
Thumbnail
高中數學主題練習—兩點斜率
Thumbnail
高中數學主題練習—兩點斜率
Thumbnail
高中中學主題練習—求垂直平分線
Thumbnail
高中中學主題練習—求垂直平分線
Thumbnail
高中數學主題練習—三角形中線長計算
Thumbnail
高中數學主題練習—三角形中線長計算
Thumbnail
高中數學主題練習—最適直線計算
Thumbnail
高中數學主題練習—最適直線計算
Thumbnail
高中數學主題練習—求空間中直線參數式
Thumbnail
高中數學主題練習—求空間中直線參數式
Thumbnail
這篇文章以簡單易懂的文字和圖片介紹線性混和效應模型,包含其中的元素和意義。除此之外也透過 R 的實作具體呈現操作時的情況。
Thumbnail
這篇文章以簡單易懂的文字和圖片介紹線性混和效應模型,包含其中的元素和意義。除此之外也透過 R 的實作具體呈現操作時的情況。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News