線性回歸幼幼班

更新於 發佈於 閱讀時間約 3 分鐘

本篇內容和圖片來自這個超棒的影片,簡單易懂,還會唱歌給你聽。感謝 StatQuest with Josh Starmer。



線性回歸 (linear regression) 的目的是要找到一條最吻合所有資料點的,過程中使用最小平方法 (least squares) 來找這條線。


好,看不懂。


年齡-財富 (原圖再製)

年齡-財富 (原圖再製)

假設這裡是一個富有的國度,我們想知道在什麼年紀 (x) 會擁有幾千萬 (y)。今天我們找了 9 個人訪問他們的年齡和擁有的千萬數,繪製出這張圖。

現在,想找出一條線,推算出公式,讓我們可以從年齡就知道這個人有多少財富。




線 (原圖再製)

線 (原圖再製)

但要怎麼知道是黑線、紅線、綠線還是藍線比較好呢?

首先用眼睛看就感覺藍線超爛,先拿他開刀。藍線的 y 值是 3.5,給它一個代號 b,b 就是截距 (intercept)。現在藍線有正式的名字了:y=b




殘差 (原圖)

殘差 (原圖)

每一個點跟 y=b 的最短距離叫做殘差 (residual),y=b 跟 (x₁, y₁) 這個點的距離為 b-y₁;y=b 跟 (x₂, y₂) 的距離為 b-y₂,以此類推。

然後會發現有些差值是負的,因為 y 值高於 b。這時把所有差值做平方,結果就會全都是正數。



寫成數學式:

  • 式1、(b-y₁)² + (b-y₂)² + (b-y₃)² + (b-y₄)² + (b-y₅)² + (b-y₆)² + (b-y₇)² + (b-y₈)² + (b-y₉)² = 24.62

先假設是這個數字,24.62 就是殘差平方和 (sum of squared residuals)


但是,單看這條線產生的殘差平方和是看不出什麼的,所以要用很多條線產生出很多個殘差平方和,到那時才有本錢看要選哪一條。

raw-image


現在把線旋轉一點點,發現算出來的殘差平方和 (18.72) 變小了!代表這條線比剛才的水平線還吻合這些資料點。



raw-image


再旋轉一點點,殘差平方和 (14.05) 又更小,線又更吻合資料點。



raw-image


旋轉到一定程度後發現殘差平方和 (31.71) 開始變大了。




有鑑於此,可以知道有一條最好的線藏在這堆線當中。為了知道這條線,首先需要引入一般線性方程式 (generic line equation) 的概念:y = ax + b


a 是斜率 (slope)、b 是截距 (intercept)。剛才的水平線 y = b 因為沒有斜率,所以沒有 ax,但我們已知最好的線不會是水平線,是斜線,所以就會需要 ax。


現在數學式變成這樣:

  • 式2、((ax₁ + b)-y₁)²+((ax₂ + b)-y₂)²+((ax₃ + b)-y₃)²+...

看起來很複雜,但其實只是把式1的 y₁、y₂ ... 代換成 ax + b 而已。概念不變,都是計算出每個點與線之間的距離,平方後相加,試圖找出最終值最小的線,這就是最小平方法 (least squares)。


接著就要來找最好的線啦!


殘差平方和 (原圖)

殘差平方和 (原圖)


這張圖每個點的 y 值都是一個殘差平方和,x 軸對應的是每一條線。

現在先不理 x 軸看到的線,以導數 (derivative) 來得知哪一條線是最好的。





導數推算斜率 (原圖再製)

導數推算斜率 (原圖再製)

這些殘差平方和連起來像一個 U 形,每個點會有一個切線。

水平線的導數為 0,也就是殘差平方和最小的地方。

我們就是要在眾多的點形成的 U 形中算出切線導數為 0 的點,對應到 x 軸的線,至此就找到最好的那條線了。(別擔心,通常沒有人手算,這件事就交給電腦)



以這 9 個點來說,最好的線是:y = 0.77x + 0.66。


年齡-財富 (原圖再製)

年齡-財富 (原圖再製)


回到一開始的設定,現在可以套公式知道這個富裕國度 10 歲的人擁有 8.36 千萬、20 歲的人擁有 16.06 千萬,以此類推。







真希望我也這麼富裕,但目前只能努力往知識富裕邁進。

avatar-img
18會員
39內容數
語言學.旅遊.夢.一些突發奇想的東西
留言3
avatar-img
留言分享你的想法!

































































後面有懶人沙發 的其他內容
許 那天淨雲清一日 綰青絲 攏碧袖 信手一陣托勾抹挑 竹林 似那墨畫 容有我
依舊鮮豔的照片 依靠科技那一瞬的眨眼 依戀才能如此嵌在手心
歡迎來到筑言筑語的沙龍,這裡有四個不同主題的房間,包括語言學印生活、陪你讀研究、走啊 去旅行以及WTF夢誌。來到這個獨特的空間,好好享受其中的每一個房間。
作者比較了四種閱讀呈現模式,包括眼動追蹤和三種自訂步調閱讀。自訂步調閱讀模式中的移動視窗方法能有效量測出與眼動追蹤類似的效果。這種方法不僅金錢成本更低,而且有助於提供清晰且相對簡單的數據。但是,移動視窗方法也存在一些限制,例如增加的閱讀時間和可能導致受試者對內容理解的困難。
許多人收到國家警報說中國衛星飛越臺灣南部,但為何看成「飛越越南」?語言學角度分析了主體-背景概念及詞頻對人類理解的影響,瞭解誤讀的背後原因。
講述兩件事情: 情緒詞很特別!在 mental lexicon (心理詞典) 中是可以被單獨分出來的一類。 情緒概念因不同語言 (文化) 而異,且雙語者認知的情緒概念可能也與單語者不同。
許 那天淨雲清一日 綰青絲 攏碧袖 信手一陣托勾抹挑 竹林 似那墨畫 容有我
依舊鮮豔的照片 依靠科技那一瞬的眨眼 依戀才能如此嵌在手心
歡迎來到筑言筑語的沙龍,這裡有四個不同主題的房間,包括語言學印生活、陪你讀研究、走啊 去旅行以及WTF夢誌。來到這個獨特的空間,好好享受其中的每一個房間。
作者比較了四種閱讀呈現模式,包括眼動追蹤和三種自訂步調閱讀。自訂步調閱讀模式中的移動視窗方法能有效量測出與眼動追蹤類似的效果。這種方法不僅金錢成本更低,而且有助於提供清晰且相對簡單的數據。但是,移動視窗方法也存在一些限制,例如增加的閱讀時間和可能導致受試者對內容理解的困難。
許多人收到國家警報說中國衛星飛越臺灣南部,但為何看成「飛越越南」?語言學角度分析了主體-背景概念及詞頻對人類理解的影響,瞭解誤讀的背後原因。
講述兩件事情: 情緒詞很特別!在 mental lexicon (心理詞典) 中是可以被單獨分出來的一類。 情緒概念因不同語言 (文化) 而異,且雙語者認知的情緒概念可能也與單語者不同。
你可能也想看
Google News 追蹤
Thumbnail
線性回歸是一種統計方法,用於分析自變數 (x) 和因變數 👍 之間的線性關係。在數據合作的背景下,廣告商(Advertiser)和出版商(Publisher)可以利用線性回歸來共同分析和預測業務成果。以下是關鍵概念及其應用範例。 ▋線性回歸的目標 線性回歸的主要目的是利用自變數(如廣告
Thumbnail
路透社報導,川普在競選期間揚言要對中國所有進口產品課徵60%關稅,不僅遠高於他首任的7.5%至25%,中國當前經濟也比當年更加脆弱,在川普新關稅措施打擊下,中國將面臨重大風險。 陸委會報告,中國經濟長期空轉,緩慢地走向衰敗;也有可能系統性金融風暴引爆,危機從企業擴散到大型銀行。台灣也要及早做出因應。
Thumbnail
本文翻譯並重新詮釋自 Paul Graham 於 2023 年 10 月的文章《Superlinear Returns》,探討商業、名聲、知識等領域中常見的超線性回報現象,強調許多回報並非線性,而是隨著表現成長以指數形式上升,尤其在創業、學術與名聲等領域中,僅有少數頂尖者能獲得大部分的回報。
Thumbnail
線性回歸 (Linear Regression) 旨在找到一條最適合所有資料點的線。本文參考 StatQuest with Josh Starmer的影片內容,以簡單有趣的方式介紹線性回歸的基本概念和計算過程,還有最小平方法 (Least Squares) 的應用。
Thumbnail
【友達限定 #116】維尼強勢回歸(本人說的XD)!繼「極簡」之後,從百日「畫畫」過程中學習「道」~|《布蘭達布得布說私密達》Podcast EP4 聖誕合體podcast快樂~🎄🤣
Thumbnail
可能包含敏感內容
「這裡是......」羅莎莉亞再睜開時,場景已經從龍脊雪山換成了碧藍的海灘上。 她觀察了周圍的環境,發現這裡位於望風山地旁的一處沙灘。 很快,派蒙的身影飛來,用小嘴吸在了她雙腿間的異物,小心翼翼進行著口交,看起來似乎還不是很嫻熟,至少,根她沒法比。 此時的羅莎莉亞,不僅在觀看我的記憶,同時也在感受著
Thumbnail
又到報稅季節,今年不僅有免稅額及標準扣除額的調升,基本生活費也拉高至19.6萬,而用手機報稅的話,還有機會可以抽最大獎現金20萬元。
Thumbnail
剛:說得誇張一點,麥當勞有種「時光機」的感覺。就像聽到經典名曲會回到過去一樣。雖然非常不可思議,但我覺得它大概就是有那種「力量」吧。 光一:因為是從小就吃過的味道啊。每次吃到都會覺得安心。會忍不住想要吃呢。
Thumbnail
線性回歸是一種統計方法,用於分析自變數 (x) 和因變數 👍 之間的線性關係。在數據合作的背景下,廣告商(Advertiser)和出版商(Publisher)可以利用線性回歸來共同分析和預測業務成果。以下是關鍵概念及其應用範例。 ▋線性回歸的目標 線性回歸的主要目的是利用自變數(如廣告
Thumbnail
路透社報導,川普在競選期間揚言要對中國所有進口產品課徵60%關稅,不僅遠高於他首任的7.5%至25%,中國當前經濟也比當年更加脆弱,在川普新關稅措施打擊下,中國將面臨重大風險。 陸委會報告,中國經濟長期空轉,緩慢地走向衰敗;也有可能系統性金融風暴引爆,危機從企業擴散到大型銀行。台灣也要及早做出因應。
Thumbnail
本文翻譯並重新詮釋自 Paul Graham 於 2023 年 10 月的文章《Superlinear Returns》,探討商業、名聲、知識等領域中常見的超線性回報現象,強調許多回報並非線性,而是隨著表現成長以指數形式上升,尤其在創業、學術與名聲等領域中,僅有少數頂尖者能獲得大部分的回報。
Thumbnail
線性回歸 (Linear Regression) 旨在找到一條最適合所有資料點的線。本文參考 StatQuest with Josh Starmer的影片內容,以簡單有趣的方式介紹線性回歸的基本概念和計算過程,還有最小平方法 (Least Squares) 的應用。
Thumbnail
【友達限定 #116】維尼強勢回歸(本人說的XD)!繼「極簡」之後,從百日「畫畫」過程中學習「道」~|《布蘭達布得布說私密達》Podcast EP4 聖誕合體podcast快樂~🎄🤣
Thumbnail
可能包含敏感內容
「這裡是......」羅莎莉亞再睜開時,場景已經從龍脊雪山換成了碧藍的海灘上。 她觀察了周圍的環境,發現這裡位於望風山地旁的一處沙灘。 很快,派蒙的身影飛來,用小嘴吸在了她雙腿間的異物,小心翼翼進行著口交,看起來似乎還不是很嫻熟,至少,根她沒法比。 此時的羅莎莉亞,不僅在觀看我的記憶,同時也在感受著
Thumbnail
又到報稅季節,今年不僅有免稅額及標準扣除額的調升,基本生活費也拉高至19.6萬,而用手機報稅的話,還有機會可以抽最大獎現金20萬元。
Thumbnail
剛:說得誇張一點,麥當勞有種「時光機」的感覺。就像聽到經典名曲會回到過去一樣。雖然非常不可思議,但我覺得它大概就是有那種「力量」吧。 光一:因為是從小就吃過的味道啊。每次吃到都會覺得安心。會忍不住想要吃呢。