線性回歸幼幼班

更新於 發佈於 閱讀時間約 3 分鐘

本篇內容和圖片來自這個超棒的影片,簡單易懂,還會唱歌給你聽。感謝 StatQuest with Josh Starmer。



線性回歸 (linear regression) 的目的是要找到一條最吻合所有資料點的,過程中使用最小平方法 (least squares) 來找這條線。


好,看不懂。


年齡-財富 (原圖再製)

年齡-財富 (原圖再製)

假設這裡是一個富有的國度,我們想知道在什麼年紀 (x) 會擁有幾千萬 (y)。今天我們找了 9 個人訪問他們的年齡和擁有的千萬數,繪製出這張圖。

現在,想找出一條線,推算出公式,讓我們可以從年齡就知道這個人有多少財富。




線 (原圖再製)

線 (原圖再製)

但要怎麼知道是黑線、紅線、綠線還是藍線比較好呢?

首先用眼睛看就感覺藍線超爛,先拿他開刀。藍線的 y 值是 3.5,給它一個代號 b,b 就是截距 (intercept)。現在藍線有正式的名字了:y=b




殘差 (原圖)

殘差 (原圖)

每一個點跟 y=b 的最短距離叫做殘差 (residual),y=b 跟 (x₁, y₁) 這個點的距離為 b-y₁;y=b 跟 (x₂, y₂) 的距離為 b-y₂,以此類推。

然後會發現有些差值是負的,因為 y 值高於 b。這時把所有差值做平方,結果就會全都是正數。



寫成數學式:

  • 式1、(b-y₁)² + (b-y₂)² + (b-y₃)² + (b-y₄)² + (b-y₅)² + (b-y₆)² + (b-y₇)² + (b-y₈)² + (b-y₉)² = 24.62

先假設是這個數字,24.62 就是殘差平方和 (sum of squared residuals)


但是,單看這條線產生的殘差平方和是看不出什麼的,所以要用很多條線產生出很多個殘差平方和,到那時才有本錢看要選哪一條。

raw-image


現在把線旋轉一點點,發現算出來的殘差平方和 (18.72) 變小了!代表這條線比剛才的水平線還吻合這些資料點。



raw-image


再旋轉一點點,殘差平方和 (14.05) 又更小,線又更吻合資料點。



raw-image


旋轉到一定程度後發現殘差平方和 (31.71) 開始變大了。




有鑑於此,可以知道有一條最好的線藏在這堆線當中。為了知道這條線,首先需要引入一般線性方程式 (generic line equation) 的概念:y = ax + b


a 是斜率 (slope)、b 是截距 (intercept)。剛才的水平線 y = b 因為沒有斜率,所以沒有 ax,但我們已知最好的線不會是水平線,是斜線,所以就會需要 ax。


現在數學式變成這樣:

  • 式2、((ax₁ + b)-y₁)²+((ax₂ + b)-y₂)²+((ax₃ + b)-y₃)²+...

看起來很複雜,但其實只是把式1的 y₁、y₂ ... 代換成 ax + b 而已。概念不變,都是計算出每個點與線之間的距離,平方後相加,試圖找出最終值最小的線,這就是最小平方法 (least squares)。


接著就要來找最好的線啦!


殘差平方和 (原圖)

殘差平方和 (原圖)


這張圖每個點的 y 值都是一個殘差平方和,x 軸對應的是每一條線。

現在先不理 x 軸看到的線,以導數 (derivative) 來得知哪一條線是最好的。





導數推算斜率 (原圖再製)

導數推算斜率 (原圖再製)

這些殘差平方和連起來像一個 U 形,每個點會有一個切線。

水平線的導數為 0,也就是殘差平方和最小的地方。

我們就是要在眾多的點形成的 U 形中算出切線導數為 0 的點,對應到 x 軸的線,至此就找到最好的那條線了。(別擔心,通常沒有人手算,這件事就交給電腦)



以這 9 個點來說,最好的線是:y = 0.77x + 0.66。


年齡-財富 (原圖再製)

年齡-財富 (原圖再製)


回到一開始的設定,現在可以套公式知道這個富裕國度 10 歲的人擁有 8.36 千萬、20 歲的人擁有 16.06 千萬,以此類推。







真希望我也這麼富裕,但目前只能努力往知識富裕邁進。

留言
avatar-img
留言分享你的想法!
石頭哥-avatar-img
2024/02/25
很好,我愛極了統計,也靠這運用在品管上吃飯快二十餘年了!
筑言筑語-avatar-img
發文者
2024/02/25
石頭哥 我還在入門階段,想慢慢將自己學到的重新組織,以簡單的方式再說一遍,說給自己聽,也說給大家聽~ 如同您 〈從一場高中生職務探索,談分享的力量〉 中提到的一樣!
筑言筑語-avatar-img
發文者
2024/03/03
線性混和效應模型幼幼班提及了這篇文章,趕快過去看看吧!
avatar-img
後面有懶人沙發
19會員
39內容數
語言學.旅遊.夢.一些突發奇想的東西
你可能也想看
Thumbnail
大家好,我是一名眼科醫師,也是一位孩子的媽 身為眼科醫師的我,我知道視力發展對孩子來說有多關鍵。 每到開學季時,診間便充斥著許多憂心忡忡的家屬。近年來看診中,兒童提早近視、眼睛疲勞的案例明顯增加,除了3C使用過度,最常被忽略的,就是照明品質。 然而作為一位媽媽,孩子能在安全、舒適的環境
Thumbnail
大家好,我是一名眼科醫師,也是一位孩子的媽 身為眼科醫師的我,我知道視力發展對孩子來說有多關鍵。 每到開學季時,診間便充斥著許多憂心忡忡的家屬。近年來看診中,兒童提早近視、眼睛疲勞的案例明顯增加,除了3C使用過度,最常被忽略的,就是照明品質。 然而作為一位媽媽,孩子能在安全、舒適的環境
Thumbnail
我的「媽」呀! 母親節即將到來,vocus 邀請你寫下屬於你的「媽」故事——不管是紀錄爆笑的日常,或是一直想對她表達的感謝,又或者,是你這輩子最想聽她說出的一句話。 也歡迎你曬出合照,分享照片背後的點點滴滴 ♥️ 透過創作,將這份情感表達出來吧!🥹
Thumbnail
我的「媽」呀! 母親節即將到來,vocus 邀請你寫下屬於你的「媽」故事——不管是紀錄爆笑的日常,或是一直想對她表達的感謝,又或者,是你這輩子最想聽她說出的一句話。 也歡迎你曬出合照,分享照片背後的點點滴滴 ♥️ 透過創作,將這份情感表達出來吧!🥹
Thumbnail
在進行多層次線性模型(MLM)當中,有時候我們不只會加入層次1的預測變項。我們也會想加入層次2預測變項。本文將介紹加入層次2預測變項的各種模型,並解釋其公式和R語言操作方法。因為內容比較多,所以篇幅比較長。 多層次線性模型(MLM),截距是表示所有學校的平均值。斜率是指模型中自變量的係數,表
Thumbnail
在進行多層次線性模型(MLM)當中,有時候我們不只會加入層次1的預測變項。我們也會想加入層次2預測變項。本文將介紹加入層次2預測變項的各種模型,並解釋其公式和R語言操作方法。因為內容比較多,所以篇幅比較長。 多層次線性模型(MLM),截距是表示所有學校的平均值。斜率是指模型中自變量的係數,表
Thumbnail
高中數學主題練習—過圓上一點之切線
Thumbnail
高中數學主題練習—過圓上一點之切線
Thumbnail
高中數學主題練習—線與圓之關係
Thumbnail
高中數學主題練習—線與圓之關係
Thumbnail
高中數學主題練習—三點共線
Thumbnail
高中數學主題練習—三點共線
Thumbnail
高中數學主題練習—兩點斜率
Thumbnail
高中數學主題練習—兩點斜率
Thumbnail
高中中學主題練習—求垂直平分線
Thumbnail
高中中學主題練習—求垂直平分線
Thumbnail
高中數學主題練習—三角形中線長計算
Thumbnail
高中數學主題練習—三角形中線長計算
Thumbnail
高中數學主題練習—最適直線計算
Thumbnail
高中數學主題練習—最適直線計算
Thumbnail
高中數學主題練習—求空間中直線參數式
Thumbnail
高中數學主題練習—求空間中直線參數式
Thumbnail
這篇文章以簡單易懂的文字和圖片介紹線性混和效應模型,包含其中的元素和意義。除此之外也透過 R 的實作具體呈現操作時的情況。
Thumbnail
這篇文章以簡單易懂的文字和圖片介紹線性混和效應模型,包含其中的元素和意義。除此之外也透過 R 的實作具體呈現操作時的情況。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News