AI 模型訓練背後的邏輯需要有「微分」跟方向導數的先備知識,後續才可以對 AI 領域相關的名詞,以及訓練模型的損失函數有更深的了解。本篇先介紹微分,向量內積和方向導數會獨立一篇介紹。在往下看之前需要複習二項式定理、呼叫高中的斜率截距。不過微分我高中也沒學過,所以就一起學習吧!
數學相關影片:Binomial theorem | Polynomial and rational functions | Algebra II | Khan Academy人工智慧與機器學習會用到數學?
訓練模型時的損失函數微分(如梯度下降法)。所以要學習導數(微分)的定義,微分又有兩大定理:
- Power Rule
- Chain Rule
微分公式的推導與極限運算
在微分之前我們會先複習,如何求兩點之間的切線斜率? 如果兩個點的距離趨近於 0 該如何計算?微分公式的推導與極限運算
微分的定義涉及到極限和多項式的展開。需要有排列組合和二項式定理的先備知識
以下是微分的定義,看不懂很正常,下文有代入數字的示範:

極限的功用
上面的Lim 是極限的意思,極限是微積分的基礎工具,用於描述函數在某一點附近的趨勢或行為,特別是當某變數趨近某值(或無窮大)時的變化。
而f'(x)就是
功用與應用
- 描述變化趨勢:
- 幫助我們理解函數的行為
- 解釋極端情況(如無窮小或無窮大)的數學性質。
- 為導數與積分奠定基礎:
- 微分的定義:導數是通過極限來計算瞬時變化率。
- 微分和極限的關係
微分公式中的斜率是基於「兩點間的斜率」計算得來,但兩點越靠近(h→0),我們實際上求的是極限。所以,微分可以看作是利用極限算出曲線某點的瞬時斜率。另外還有一些特性
微分實際例子:以實際切線斜率計算
當我們用 X2 來解釋微分概念時,可以這樣理解:
微分是什麼?
假設函數是 f(x)=x2,我們要知道它在某一點的瞬間變化率(比如在 )。這就是微分的用途:幫助我們找到曲線上某一點的「切線斜率」。
但因為切線只碰到曲線上的一個點,無法直接用公式算,所以我們用「兩點間的斜率」來逼近切線的斜率。

藍色是f(x)=x 2次方的函數圖形
兩點間的斜率公式
斜率的公式是:

這裡 h 表示兩點之間的距離,隨著 h→0,這兩點就越來越靠近。



這是我的手寫筆記,不過為了排版整齊,只好請 GPT 幫我輸出數學公式了。
微分和極限的關係
微分公式中的斜率是基於「兩點間的斜率」計算得來,但兩點越靠近(h→0h \to 0h→0),我們實際上求的是極限。所以,微分可以看作是利用極限算出曲線某點的瞬時斜率。
講完斜率,我們來看微分的常用公式
Power Rule:次項拉到係數,再降一次
1. d 的意義:
在這裡,d 表示微分運算(derivative operator)

意思是「對 x 進行微分」。它告訴我們要計算一個函數相對於 x 的變化率。
例如:

2. Power Rule 的應用:解釋如何變成 2X
Power Rule 的公式:

次數拉到係數:Power Rule 的核心,將 n 拉到前面當作係數。

降一次次數:Power Rule 的另一部分,將 xn 的次數 n 減少 1。

示範習題:結合二項式定理的微分

微分
計算步驟:把次項拉到常數再降一級

Chain Rule 鍊鎖律:先微外再微內
有大函數包小函數的狀況,也可以理解成有很多層括弧的情況。通常會跟 Power Rule 一起使用。


再舉個例子:

多變數偏微分 (有 X 和 Y)
偏微分 (Partial Differentiation)
- 對象:多變數函數 f(x,y,z,… )。
- 例如:f(x,y)=x2+y2
- 目的:研究函數對某一個變數的變化率,其他變數視為常數不變。

以上就是我的學習筆記,圖中公式是靠 ChatGPT 協助生成,如果錯誤請不吝指正!
備註:好感動!外文系畢業後居然還可以保有數學腦,高中數學真的沒有白學~