線性回歸幼幼班

更新 發佈閱讀 3 分鐘

本篇內容和圖片來自這個超棒的影片,簡單易懂,還會唱歌給你聽。感謝 StatQuest with Josh Starmer。



線性回歸 (linear regression) 的目的是要找到一條最吻合所有資料點的,過程中使用最小平方法 (least squares) 來找這條線。


好,看不懂。


年齡-財富 (原圖再製)

年齡-財富 (原圖再製)

假設這裡是一個富有的國度,我們想知道在什麼年紀 (x) 會擁有幾千萬 (y)。今天我們找了 9 個人訪問他們的年齡和擁有的千萬數,繪製出這張圖。

現在,想找出一條線,推算出公式,讓我們可以從年齡就知道這個人有多少財富。




線 (原圖再製)

線 (原圖再製)

但要怎麼知道是黑線、紅線、綠線還是藍線比較好呢?

首先用眼睛看就感覺藍線超爛,先拿他開刀。藍線的 y 值是 3.5,給它一個代號 b,b 就是截距 (intercept)。現在藍線有正式的名字了:y=b




殘差 (原圖)

殘差 (原圖)

每一個點跟 y=b 的最短距離叫做殘差 (residual),y=b 跟 (x₁, y₁) 這個點的距離為 b-y₁;y=b 跟 (x₂, y₂) 的距離為 b-y₂,以此類推。

然後會發現有些差值是負的,因為 y 值高於 b。這時把所有差值做平方,結果就會全都是正數。



寫成數學式:

  • 式1、(b-y₁)² + (b-y₂)² + (b-y₃)² + (b-y₄)² + (b-y₅)² + (b-y₆)² + (b-y₇)² + (b-y₈)² + (b-y₉)² = 24.62

先假設是這個數字,24.62 就是殘差平方和 (sum of squared residuals)


但是,單看這條線產生的殘差平方和是看不出什麼的,所以要用很多條線產生出很多個殘差平方和,到那時才有本錢看要選哪一條。

raw-image


現在把線旋轉一點點,發現算出來的殘差平方和 (18.72) 變小了!代表這條線比剛才的水平線還吻合這些資料點。



raw-image


再旋轉一點點,殘差平方和 (14.05) 又更小,線又更吻合資料點。



raw-image


旋轉到一定程度後發現殘差平方和 (31.71) 開始變大了。




有鑑於此,可以知道有一條最好的線藏在這堆線當中。為了知道這條線,首先需要引入一般線性方程式 (generic line equation) 的概念:y = ax + b


a 是斜率 (slope)、b 是截距 (intercept)。剛才的水平線 y = b 因為沒有斜率,所以沒有 ax,但我們已知最好的線不會是水平線,是斜線,所以就會需要 ax。


現在數學式變成這樣:

  • 式2、((ax₁ + b)-y₁)²+((ax₂ + b)-y₂)²+((ax₃ + b)-y₃)²+...

看起來很複雜,但其實只是把式1的 y₁、y₂ ... 代換成 ax + b 而已。概念不變,都是計算出每個點與線之間的距離,平方後相加,試圖找出最終值最小的線,這就是最小平方法 (least squares)。


接著就要來找最好的線啦!


殘差平方和 (原圖)

殘差平方和 (原圖)


這張圖每個點的 y 值都是一個殘差平方和,x 軸對應的是每一條線。

現在先不理 x 軸看到的線,以導數 (derivative) 來得知哪一條線是最好的。





導數推算斜率 (原圖再製)

導數推算斜率 (原圖再製)

這些殘差平方和連起來像一個 U 形,每個點會有一個切線。

水平線的導數為 0,也就是殘差平方和最小的地方。

我們就是要在眾多的點形成的 U 形中算出切線導數為 0 的點,對應到 x 軸的線,至此就找到最好的那條線了。(別擔心,通常沒有人手算,這件事就交給電腦)



以這 9 個點來說,最好的線是:y = 0.77x + 0.66。


年齡-財富 (原圖再製)

年齡-財富 (原圖再製)


回到一開始的設定,現在可以套公式知道這個富裕國度 10 歲的人擁有 8.36 千萬、20 歲的人擁有 16.06 千萬,以此類推。







真希望我也這麼富裕,但目前只能努力往知識富裕邁進。

留言
avatar-img
留言分享你的想法!
avatar-img
後面有懶人沙發
19會員
36內容數
語言學.旅遊.夢.一些突發奇想的東西
你可能也想看
Thumbnail
透過蝦皮分潤計畫,輕鬆賺取零用金!本文分享5-6月實測心得,包含數據流程、實際收入、平臺優點及注意事項,並推薦高分潤商品,教你如何運用空閒時間創造被動收入。
Thumbnail
透過蝦皮分潤計畫,輕鬆賺取零用金!本文分享5-6月實測心得,包含數據流程、實際收入、平臺優點及注意事項,並推薦高分潤商品,教你如何運用空閒時間創造被動收入。
Thumbnail
單身的人有些會養寵物,而我養植物。畢竟寵物離世會傷心,植物沒養好再接再厲就好了~(笑)
Thumbnail
單身的人有些會養寵物,而我養植物。畢竟寵物離世會傷心,植物沒養好再接再厲就好了~(笑)
Thumbnail
不知你有沒有過這種經驗?衛生紙只剩最後一包、洗衣精倒不出來,或電池突然沒電。這次一次補貨,從電池、衛生紙到洗衣精,還順便分享使用心得。更棒的是,搭配蝦皮分潤計畫,愛用品不僅自己用得安心,分享給朋友還能賺回饋。立即使用推薦碼 X5Q344E,輕鬆上手,隨時隨地賺取分潤!
Thumbnail
不知你有沒有過這種經驗?衛生紙只剩最後一包、洗衣精倒不出來,或電池突然沒電。這次一次補貨,從電池、衛生紙到洗衣精,還順便分享使用心得。更棒的是,搭配蝦皮分潤計畫,愛用品不僅自己用得安心,分享給朋友還能賺回饋。立即使用推薦碼 X5Q344E,輕鬆上手,隨時隨地賺取分潤!
Thumbnail
身為一個典型的社畜,上班時間被會議、進度、KPI 塞得滿滿,下班後只想要找一個能夠安靜喘口氣的小角落。對我來說,畫畫就是那個屬於自己的小樹洞。無論是胡亂塗鴉,還是慢慢描繪喜歡的插畫人物,那個專注在筆觸和色彩的過程,就像在幫心靈按摩一樣,讓緊繃的神經慢慢鬆開。
Thumbnail
身為一個典型的社畜,上班時間被會議、進度、KPI 塞得滿滿,下班後只想要找一個能夠安靜喘口氣的小角落。對我來說,畫畫就是那個屬於自己的小樹洞。無論是胡亂塗鴉,還是慢慢描繪喜歡的插畫人物,那個專注在筆觸和色彩的過程,就像在幫心靈按摩一樣,讓緊繃的神經慢慢鬆開。
Thumbnail
在進行多層次線性模型(MLM)當中,有時候我們不只會加入層次1的預測變項。我們也會想加入層次2預測變項。本文將介紹加入層次2預測變項的各種模型,並解釋其公式和R語言操作方法。因為內容比較多,所以篇幅比較長。 多層次線性模型(MLM),截距是表示所有學校的平均值。斜率是指模型中自變量的係數,表
Thumbnail
在進行多層次線性模型(MLM)當中,有時候我們不只會加入層次1的預測變項。我們也會想加入層次2預測變項。本文將介紹加入層次2預測變項的各種模型,並解釋其公式和R語言操作方法。因為內容比較多,所以篇幅比較長。 多層次線性模型(MLM),截距是表示所有學校的平均值。斜率是指模型中自變量的係數,表
Thumbnail
高中數學主題練習—過圓上一點之切線
Thumbnail
高中數學主題練習—過圓上一點之切線
Thumbnail
高中數學主題練習—線與圓之關係
Thumbnail
高中數學主題練習—線與圓之關係
Thumbnail
高中數學主題練習—三點共線
Thumbnail
高中數學主題練習—三點共線
Thumbnail
高中數學主題練習—兩點斜率
Thumbnail
高中數學主題練習—兩點斜率
Thumbnail
高中中學主題練習—求垂直平分線
Thumbnail
高中中學主題練習—求垂直平分線
Thumbnail
高中數學主題練習—三角形中線長計算
Thumbnail
高中數學主題練習—三角形中線長計算
Thumbnail
高中數學主題練習—最適直線計算
Thumbnail
高中數學主題練習—最適直線計算
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News