機器學習（中）線性回歸、損失函數、梯度下降

Bicky

發佈於電腦科學新手村

更新於 2025/02/04發佈於 2025/02/04閱讀時間約 6 分鐘

終於來的線性回歸，高中學的線性回歸是 y=ax+b，但在數據集中，哪一條線性回歸預測是最適合的呢？計算過程中會使用到梯度下降和損失函數的概念。

圖片截圖自：Gradient Descent, Step-by-Step

線性回歸 (Linear Regression) 簡單介紹

線性回歸是一種用來預測的數學模型，目的是找到一條直線，讓這條直線可以盡可能貼近數據點。我們可以利用這條直線來預測未來的值，比如根據重量預測高度。

線性回歸的流程

收集資料：準備好你需要的數據，例如重量 (X) 和高度(Y)。
建立模型：假設我們的預測公式是直線的形式： y=wx+b其中，w是斜率（slope），b 是截距（intercept）。
計算誤差：找出這條直線和真實數據的誤差，用來評估模型的準確性。
優化模型：使用「梯度下降法」來調整 w 和 b，讓模型誤差更小。
測試模型：用新數據來驗證模型的效果。

詳細流程說明

下圖 0.64 是我們給的斜率（slope）， intercept 是截距的意思，若截距的值是當ｘ＝０，ｙ的值，也就是距離原點多遠

第二步，計算資料點到回歸線的距離。因為有些點是在線下面，避免正負抵銷，所以使用「均方誤差」(MSE, Mean Squared Error)

第一個點的實際ｙ是1.4，預測 y 套用模型算出來的值是 1.1

將所有的點畫出來，形成損失函數（實際點到預測點距離誤差）。最低點是損失函數Loss/Cost function (MSE loss)的點，但如何確定這個最低點是真的最低點？我們每次都要一個一個點慢慢找嗎？其實有個方法是梯度下降 (Gradient Descent)　可以迅速找到最低點。

再講解梯度下降的微積分數學之前，我們先來簡單看這兩個概念的目的

梯度下降 (Gradient Descent) & 隨機梯度下降 (Stochastic Gradient Descent)

梯度下降 (Gradient Descent)
- 用來優化模型的演算法，目的是讓 Loss 越來越小。
- 模型會根據 Loss 的變化來調整 w 和 b
隨機梯度下降 (SGD)
- 每次只用一筆數據點來計算 Loss，讓演算法更快適應大量數據。

圖解：可以用一個 Loss 曲面圖，畫出梯度下降一步步逼近最低點的過程。

數學時間到~

先看其中一個曲線所形成的點微分做示範，計算過程會用到 Chain Rule　（降次，先微外再微內）跟 Power Rule

可以參考這篇文章：AI模型訓練的數學基礎：微分入門教學

因此會得到　-2(1.4-(intercept +0.64*0.5)是他的微分結果。

intercept 是截距的變數，若截距設定為 0 那麼可以得到 -5.7，這有什麼目的呢？最低點微分會接近０

Learning Rate 與下一個點的計算

問題來了，該如何決定調整的幅度？

在 Gradient Descent (梯度下降) 中，我們希望找到損失函數 (Loss Function) 的最低點，這代表模型的誤差最小。為了達到這個目標，我們使用微分來計算斜率，並根據這個斜率來調整參數，一步步朝向最低點移動。

1. Learning Rate (學習率) 是什麼？

Learning Rate (學習率，記作 α) 是一個超參數（在訓練前要自訂），決定我們每次更新參數的步伐大小。它影響：

學習率太大：容易錯過最佳點，甚至導致發散 (不收斂)
學習率太小：收斂速度太慢，需要很多次迭代才能找到最佳解

這就是為什麼選擇合適的學習率很重要。

2. 計算下一個點

我們的目標是 透過梯度下降來更新參數 θ，讓它逐步接近最佳解。

計算損失函數的梯度 (Gradient，∇J(θ))
- 這是透過微分 (Derivative) 來計算
- 代表損失函數在當前點的斜率，指示該點應該往哪個方向調整
計算 Step Size (步長)
- Step Size = 梯度 × Learning Rate
- 這決定了我們應該向哪個方向前進，以及移動的距離
更新參數
- 新參數 = 舊參數 - Step Size
- 為什麼是減號 (-)？因為梯度代表的是「上升」的方向，而我們要最小化損失，因此應該朝「相反方向」前進。

做到什麼時候停止呢?　slope 接近０，但實際上很困難，所以只要 Step size 接近0.001 就好了。

另外，實際上不會只有一個參數，模型會有多個參數呈現立體，或是物理無法想像的多維度，所以才要用微分與梯度下降快速找到損失函數最低的點。

至於這些理論如何在程式碼實現，下一篇我會介紹

1. 手刻梯度下降法 (Batch Gradient Descent)

Scikit-Learn 套件

6會員

44內容數

留言0

查看全部

發表第一個留言支持創作者！

白天管工廠，下班資工系的其他內容

機器學習（下集）非監督式學習筆記：分群、關聯分析與降維

本篇筆記介紹非監督式學習的三大類別：分群、關聯分析和降維，並深入說明其概念、演算法和應用場景。包含K-Means分群演算法、Apriori關聯分析演算法、PCA降維技術，以及強化學習的基礎概念。

#微積分 #模型 #電腦

機器學習 (上集) 監督式學習：分類與模型評估

深入探討監督式學習中的分類預測，涵蓋邏輯回歸、混淆矩陣、模型評估指標 (Accuracy, Precision, Recall, F1 Score)、ROC 曲線、AUC，以及 KNN、SVM 和 Naive Bayes 等分類演算法。還介紹決策樹、Bagging、Boosting 等集成學習方法。

#學習 #回歸 #距離

AI與機器學習系列筆記：基礎入門名詞解釋

這篇文章提供機器學習和人工智慧的基礎概念，包含監督式學習、非監督式學習、強化學習，以及模型訓練、優化和評估等重要環節。文中也涵蓋了特徵工程、特徵縮放、維度詛咒等關鍵概念，並簡要介紹了正規化、K折交叉驗證等進階技術。

#學習 #機器學習 #人工智慧

向量內積、方向導數與梯度：從數學到機器學習

本文回顧向量內積、方向導數與梯度的概念，並以生活化的比喻和數學公式說明它們在微積分和機器學習中的應用，尤其是在梯度下降法中尋找函數最低點的過程。

#電腦 #方向導數 #數學

AI模型訓練的數學基礎：微分入門教學

本文提供微分的基礎概念介紹，包含微分的定義、極限的應用、Power Rule 和 Chain Rule 的說明，以及偏微分的概念。文中包含圖表公式，並以淺顯易懂的方式說明微積分在 AI 模型訓練中的重要性。

#f(x)#數學 #ChatGPT

資訊安全：為何重設密碼不直接告訴你舊密碼？破解密碼的方法

這篇文章介紹了幾種常見的密碼破解方法，例如字典攻擊、密碼填充攻擊、彩虹表攻擊等，並說明使用密碼管理員、以及網站採用 Salting 技術等方式來提升資訊安全。文章也涵蓋了端對端加密、全盤加密、對稱式和非對稱式加密、Passkey 和模數運算等概念，並以淺顯易懂的方式說明其原理和應用。