AI模型訓練的數學基礎：微分入門教學

更新於 2025/01/06發佈於 2025/01/05閱讀時間約 5 分鐘

AI 模型訓練背後的邏輯需要有「微分」跟方向導數的先備知識，後續才可以對 AI 領域相關的名詞，以及訓練模型的損失函數有更深的了解。本篇先介紹微分，向量內積和方向導數會獨立一篇介紹。在往下看之前需要複習二項式定理、呼叫高中的斜率截距。不過微分我高中也沒學過，所以就一起學習吧！

人工智慧與機器學習會用到數學？

訓練模型時的損失函數微分（如梯度下降法）。所以要學習導數（微分）的定義，微分又有兩大定理：

- Power Rule
- Chain Rule

微分公式的推導與極限運算

在微分之前我們會先複習，如何求兩點之間的切線斜率？如果兩個點的距離趨近於 0 該如何計算?

微分公式的推導與極限運算

微分的定義涉及到極限和多項式的展開。需要有排列組合和二項式定理的先備知識

以下是微分的定義，看不懂很正常，下文有代入數字的示範：

極限的功用

上面的Lim 是極限的意思，極限是微積分的基礎工具，用於描述函數在某一點附近的趨勢或行為，特別是當某變數趨近某值（或無窮大）時的變化。

而f'(x)就是

功用與應用

描述變化趨勢：
- 幫助我們理解函數的行為
- 解釋極端情況（如無窮小或無窮大）的數學性質。
為導數與積分奠定基礎：
- 微分的定義：導數是通過極限來計算瞬時變化率。

微分和極限的關係

微分公式中的斜率是基於「兩點間的斜率」計算得來，但兩點越靠近（h→0），我們實際上求的是極限。所以，微分可以看作是利用極限算出曲線某點的瞬時斜率。另外還有一些特性

微分實際例子：以實際切線斜率計算

當我們用 X² 來解釋微分概念時，可以這樣理解：

微分是什麼？

假設函數是 f(x)=x^２，我們要知道它在某一點的瞬間變化率（比如在）。這就是微分的用途：幫助我們找到曲線上某一點的「切線斜率」。

但因為切線只碰到曲線上的一個點，無法直接用公式算，所以我們用「兩點間的斜率」來逼近切線的斜率。

藍色是f(x)=x 2次方的函數圖形

兩點間的斜率公式

斜率的公式是：

這裡 h 表示兩點之間的距離，隨著 h→0，這兩點就越來越靠近。

這是我的手寫筆記，不過為了排版整齊，只好請 GPT 幫我輸出數學公式了。

微分和極限的關係

微分公式中的斜率是基於「兩點間的斜率」計算得來，但兩點越靠近（h→0h \to 0h→0），我們實際上求的是極限。所以，微分可以看作是利用極限算出曲線某點的瞬時斜率。

講完斜率，我們來看微分的常用公式

Power Rule：次項拉到係數，再降一次

1. d 的意義：

在這裡，d 表示微分運算（derivative operator）

意思是「對 x 進行微分」。它告訴我們要計算一個函數相對於 x 的變化率。

例如：

2. Power Rule 的應用：解釋如何變成 2X

Power Rule 的公式：

次數拉到係數：Power Rule 的核心，將 n 拉到前面當作係數。

降一次次數：Power Rule 的另一部分，將 xⁿ的次數 n 減少 1。

示範習題：結合二項式定理的微分

微分

計算步驟：把次項拉到常數再降一級

Chain Rule 鍊鎖律：先微外再微內

有大函數包小函數的狀況，也可以理解成有很多層括弧的情況。通常會跟 Power Rule 一起使用。

再舉個例子：

多變數偏微分　(有 X 和 Y）

偏微分 (Partial Differentiation)

對象：多變數函數 f(x,y,z,… )。
- 例如：f(x,y)=x²+y²　
目的：研究函數對某一個變數的變化率，其他變數視為常數不變。

以上就是我的學習筆記，圖中公式是靠 ChatGPT 協助生成，如果錯誤請不吝指正！

備註：好感動！外文系畢業後居然還可以保有數學腦，高中數學真的沒有白學～

留言

留言分享你的想法！

Bicky

發文者

2025/02/04

在機器學習（中）線性回歸、損失函數、梯度下降提及了這篇文章，趕快過去看看吧！

越南放大鏡 X 下班資工系

15會員

65內容數

雙重身份：越南放大鏡 X 下班資工系政大東南亞語言學系是我接觸越南語的起點，畢業後找越南外派工作的生活跟資訊時，發現幾乎都是清單式的分享，很難身歷其境。所以我希望「越南放大鏡」可以帶讀者看到更多細節和深入的觀察。 - 下班資工系則是自學資工系的課程內容，記錄實際操作的過程，學習理論的過程。希望可以跟讀者一起成長。

越南放大鏡 X 下班資工系的其他內容

2025/04/24

JS 系列 0_JavaScript 新手入門教學：從基礎語法到 React 應用

本系列文章將循序漸進地介紹 JavaScript 的核心概念，從基礎語法到進階應用，例如非同步程式設計和 React 基礎。內容淺顯易懂，並使用生活化的比喻幫助讀者理解，搭配程式碼範例，適合 JavaScript 初學者學習。

2025/04/24

JS 系列 0_JavaScript 新手入門教學：從基礎語法到 React 應用

2025/04/21

網路學習筆記 -02 行動通訊網路演進：從1G到5G，以及ITU與3GPP的角色

本文介紹行動通訊網路的演進歷史，從1G到5G，並說明ITU與3GPP在制定通訊規格上的重要角色，以及5G的三大關鍵應用場景：URLLC、eMBB和mMTC。

2025/04/21

網路學習筆記 -02 行動通訊網路演進：從1G到5G，以及ITU與3GPP的角色

本文介紹行動通訊網路的演進歷史，從1G到5G，並說明ITU與3GPP在制定通訊規格上的重要角色，以及5G的三大關鍵應用場景：URLLC、eMBB和mMTC。

2025/04/11

網路通訊筆記 01：從OSI模型到WebSocket即時通訊

這篇文章說明網路的七層模型、IP 位址、通訊埠、TCP/UDP 協定、HTTP 協定、HTTP 狀態碼以及 WebSocket，並解釋它們之間的關係與互動方式。文中包含許多圖表和範例，幫助讀者理解這些網路概念。

2025/04/11

網路通訊筆記 01：從OSI模型到WebSocket即時通訊

看更多

你可能也想看

好好宅在家

設計師也蝦皮購－前陣子為工地買什麼？

家中修繕或裝潢想要找各種小零件時，直接上網採買可以省去不少煩惱～看看Sylvia這回為了工地買了些什麼吧～

#開箱#蝦皮分潤計畫#裝修工程

2025/05/25

好好宅在家

設計師也蝦皮購－前陣子為工地買什麼？

家中修繕或裝潢想要找各種小零件時，直接上網採買可以省去不少煩惱～看看Sylvia這回為了工地買了些什麼吧～

#開箱#蝦皮分潤計畫#裝修工程

2025/05/25

Chloe小窩

我的簡單生活練習：三款包包與日常小物開箱分享

👜簡單生活，從整理包包開始！我的三款愛用包＋隨身小物清單開箱，一起來看看我每天都帶些什麼吧🌿✨

#蝦皮#開箱#蝦皮分潤計畫

2025/06/05

Chloe小窩

我的簡單生活練習：三款包包與日常小物開箱分享

👜簡單生活，從整理包包開始！我的三款愛用包＋隨身小物清單開箱，一起來看看我每天都帶些什麼吧🌿✨

#蝦皮#開箱#蝦皮分潤計畫

2025/06/05

方格子 vocus 官方沙龍

徵才：創作者營運專員/經理（Operations Specialist）｜Creator Partnership 部門

創作者營運專員/經理（Operations Specialist/Manager）將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力，找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。

#vocus#方格子#求職

2025/06/23

方格子 vocus 官方沙龍

徵才：創作者營運專員/經理（Operations Specialist）｜Creator Partnership 部門

#vocus#方格子#求職

2025/06/23

于正龍（Ricky）的沙龍

Python求解偏微分方程

1 引言微分方程是描述一個系統的狀態隨時間和空間演化的最基本的數學工具之一，其在物理、經濟、工程、社會等各方面都有及其重要的應用。然而，只有很少的微分方程式可以解析求解，尤其對於偏微分方程，能解析求解的種類更是寥寥可數。更多的微分方程式可以用數值法來求解，只要精確度夠高，就可以滿足科學和工程

2023/10/04

2023/10/04

茶桁的AI秘籍 - 人工智能数学基础篇导言

数学对于计算机编程来说重要性是毋庸置疑的，更何况我们现在不仅仅是编程，而是走在「人工智能」的路上。可以说，数学应该是最重要的基础。我们在学习AI的过程当中可能会遇到的一些关于数学方面的一些东西，比如说线性代数里面的矩阵运算，比如说求导，还有一些概率统计，图论方面的一些东西。

#人工智能#数学#Math

2023/08/24

茶桁的沙龍

茶桁的AI秘籍 - 人工智能数学基础篇导言

#人工智能#数学#Math

2023/08/24

深智數位的沙龍

【深智書摘】利用Python，帶您遨遊數學世界！

數學為我們提供了豐富多彩的素材用以學習程式設計：從讀者已掌握的知識（例如繪製一個抛物線，計算一個函數的導數）到未知的領域（如求一個複雜函數的極值），這期間有驗證的快樂，也有探索的艱辛，在不斷重複這些活動的過程中學會熟練運用這一工具，工具的熟練使用反過來也會幫助我們對特定問題進行更為深入的探討與研究。

#數學#程式#學習

2023/03/02

深智數位的沙龍

【深智書摘】利用Python，帶您遨遊數學世界！

#數學#程式#學習

2023/03/02

Rene Wang的沙龍

[探索] 門外漢的梯度下降變奏曲（上）

梯度下降學習法雖然是一個有效的最佳化方法，然而因為梯度本身屬於局部變化，因此有三個陷阱，而未能到達全域最小值的命運。他們分別是：局部最小值，初始值和病態的二階導數矩陣。我們將解釋這些最佳化陷阱的成因，以及提出相對應的方法。這些方法包括了使用 mini-batch，加入處罰項和 early stop

2020/04/06

Rene Wang的沙龍

[探索] 門外漢的梯度下降變奏曲（上）

2020/04/06

Caspar的沙龍

從生活認識微積分（十四）：函數微分的幾何意義(3)

　　本篇文章從將延續上文脈絡，從上文探討的座標、割線定義，接續探討連續函數的切線，說明割線與切線之間的關係。並銜接之後對微分幾何意義總結所做的文章。（四）連續函數的切線　　有了割線的觀念後，切線的觀念就十分容易理解了。想像函數圖形上有相異兩點(x1, f(x1))和(x2, f(x2))，經由

#微積分#從生活看數學#切線的定義

2019/08/21

Caspar的沙龍

從生活認識微積分（十四）：函數微分的幾何意義(3)

#微積分#從生活看數學#切線的定義

2019/08/21

Caspar的沙龍

從生活認識微積分（十二）函數微分的幾何意義(1)

　　至今為止，本文都使用代數的方式來討論微分，並以生活、科學中的瞬間變化率，如：速度等，對微分的定義做出詮釋。這一系列主題文章「函數微分的幾何意義」將分多集探討，用幾何角度來了解函數微分。本文章第一集將先引入代數和幾何的觀念；在概略介紹函數的圖形定義。

#代數#幾何#科普文章

2019/07/31

Caspar的沙龍

從生活認識微積分（十二）函數微分的幾何意義(1)

#代數#幾何#科普文章

2019/07/31

Caspar的沙龍

從生活認識微積分（十一）導函數與微分

這篇文章中將延續上文脈絡，先回顧某一定值的導數和可微分的定義，讓讀者發現x=n時的導數與某個給定的定值n已經形成函數關係；接著透過同一個人的不同裝扮與不同稱呼，來說明數學變換符號的意義。第三段將導數的符號作變換，表示導函數的概念與定義，最後總結導函數即是微分，以及重新回顧微分的意義。

2019/07/09

2019/07/09

從生活認識微積分（十）什麼是「微分」（下）

　　上篇文章介紹物理學家如何定義瞬時速度，本篇文章將延續上回文章脈絡，帶領讀者從回顧瞬時速度的由來，一般化瞬時速度的定義，最後引入導數和可微分的的定義，說明導數、瞬間變化率、可微分，牽涉到同一極限的觀念，讓讀者由現實世界逐步走入抽象世界。

#微積分#微分#數學

2019/07/01

Caspar的沙龍

從生活認識微積分（十）什麼是「微分」（下）

#微積分#微分#數學

2019/07/01

Caspar的沙龍

從生活認識微積分（三）：極限與無窮的定義

這是微積分科普系列文章的第三篇，本文分成兩個部分。第一部分：由於上文以極限的反思作結，告訴讀者透過實驗與推測，不能確定函數的極限，因此本文將以嚴格的數學定義，說明如何證明函數的極限，回答上文中的反思問題，了解定義後，未來再證明函數極限的加、減、乘、除；第二部分：將以生活對話向你解釋「無限大、無限小」

#無限大#無限小#極限定義

2018/06/29