AI 模型訓練背後的邏輯需要有「微分」跟方向導數的先備知識,後續才可以對 AI 領域相關的名詞,以及訓練模型的損失函數有更深的了解。本篇先介紹微分,向量內積和方向導數會獨立一篇介紹。在往下看之前需要複習二項式定理、呼叫高中的斜率截距。不過微分我高中也沒學過,所以就一起學習吧!
數學相關影片:Binomial theorem | Polynomial and rational functions | Algebra II | Khan Academy
訓練模型時的損失函數微分(如梯度下降法)。所以要學習導數(微分)的定義,微分又有兩大定理:
在微分之前我們會先複習,如何求兩點之間的切線斜率? 如果兩個點的距離趨近於 0 該如何計算?
微分的定義涉及到極限和多項式的展開。需要有排列組合和二項式定理的先備知識
以下是微分的定義,看不懂很正常,下文有代入數字的示範:
上面的Lim 是極限的意思,極限是微積分的基礎工具,用於描述函數在某一點附近的趨勢或行為,特別是當某變數趨近某值(或無窮大)時的變化。
而f'(x)就是
微分公式中的斜率是基於「兩點間的斜率」計算得來,但兩點越靠近(h→0),我們實際上求的是極限。所以,微分可以看作是利用極限算出曲線某點的瞬時斜率。另外還有一些特性
當我們用 X2 來解釋微分概念時,可以這樣理解:
假設函數是 f(x)=x2,我們要知道它在某一點的瞬間變化率(比如在 )。這就是微分的用途:幫助我們找到曲線上某一點的「切線斜率」。
但因為切線只碰到曲線上的一個點,無法直接用公式算,所以我們用「兩點間的斜率」來逼近切線的斜率。
斜率的公式是:
這裡 h 表示兩點之間的距離,隨著 h→0,這兩點就越來越靠近。
微分公式中的斜率是基於「兩點間的斜率」計算得來,但兩點越靠近(h→0h \to 0h→0),我們實際上求的是極限。所以,微分可以看作是利用極限算出曲線某點的瞬時斜率。
講完斜率,我們來看微分的常用公式
在這裡,d 表示微分運算(derivative operator)
意思是「對 x 進行微分」。它告訴我們要計算一個函數相對於 x 的變化率。
例如:
Power Rule 的公式:
次數拉到係數:Power Rule 的核心,將 n 拉到前面當作係數。
降一次次數:Power Rule 的另一部分,將 xn 的次數 n 減少 1。
計算步驟:把次項拉到常數再降一級
有大函數包小函數的狀況,也可以理解成有很多層括弧的情況。通常會跟 Power Rule 一起使用。
再舉個例子:
以上就是我的學習筆記,圖中公式是靠 ChatGPT 協助生成,如果錯誤請不吝指正!
備註:好感動!外文系畢業後居然還可以保有數學腦,高中數學真的沒有白學~