AI模型訓練的數學基礎:微分入門教學

AI模型訓練的數學基礎:微分入門教學

更新於 發佈於 閱讀時間約 5 分鐘

AI 模型訓練背後的邏輯需要有「微分」跟方向導數的先備知識,後續才可以對 AI 領域相關的名詞,以及訓練模型的損失函數有更深的了解。本篇先介紹微分,向量內積和方向導數會獨立一篇介紹。在往下看之前需要複習二項式定理、呼叫高中的斜率截距。不過微分我高中也沒學過,所以就一起學習吧!

數學相關影片:Binomial theorem | Polynomial and rational functions | Algebra II | Khan Academy

人工智慧與機器學習會用到數學?

訓練模型時的損失函數微分(如梯度下降法)。所以要學習導數(微分)的定義,微分又有兩大定理:
    • Power Rule
    • Chain Rule

微分公式的推導與極限運算

在微分之前我們會先複習,如何求兩點之間的切線斜率? 如果兩個點的距離趨近於 0 該如何計算?

微分公式的推導與極限運算

微分的定義涉及到極限和多項式的展開。需要有排列組合和二項式定理的先備知識

以下是微分的定義,看不懂很正常,下文有代入數字的示範:

raw-image

極限的功用

上面的Lim 是極限的意思,極限是微積分的基礎工具,用於描述函數在某一點附近的趨勢或行為,特別是當某變數趨近某值(或無窮大)時的變化。

而f'(x)就是

功用與應用

  1. 描述變化趨勢:
    • 幫助我們理解函數的行為
    • 解釋極端情況(如無窮小或無窮大)的數學性質。
  2. 為導數與積分奠定基礎:
    • 微分的定義:導數是通過極限來計算瞬時變化率。
  • 微分和極限的關係

微分公式中的斜率是基於「兩點間的斜率」計算得來,但兩點越靠近(h→0),我們實際上求的是極限。所以,微分可以看作是利用極限算出曲線某點的瞬時斜率。另外還有一些特性

微分實際例子:以實際切線斜率計算

當我們用 X2 來解釋微分概念時,可以這樣理解:


微分是什麼?

假設函數是 f(x)=x,我們要知道它在某一點的瞬間變化率(比如在 )。這就是微分的用途:幫助我們找到曲線上某一點的「切線斜率」。

但因為切線只碰到曲線上的一個點,無法直接用公式算,所以我們用「兩點間的斜率」來逼近切線的斜率。

藍色是f(x)=x 2次方的函數圖形

藍色是f(x)=x 2次方的函數圖形



兩點間的斜率公式

斜率的公式是:

raw-image


這裡 h 表示兩點之間的距離,隨著 h→0,這兩點就越來越靠近。


raw-image
raw-image
這是我的手寫筆記,不過為了排版整齊,只好請 GPT 幫我輸出數學公式了。

這是我的手寫筆記,不過為了排版整齊,只好請 GPT 幫我輸出數學公式了。



微分和極限的關係

微分公式中的斜率是基於「兩點間的斜率」計算得來,但兩點越靠近(h→0h \to 0h→0),我們實際上求的是極限。所以,微分可以看作是利用極限算出曲線某點的瞬時斜率。

講完斜率,我們來看微分的常用公式

Power Rule:次項拉到係數,再降一次


1. d 的意義

在這裡,d 表示微分運算(derivative operator)

raw-image


意思是「對 x 進行微分」。它告訴我們要計算一個函數相對於 x 的變化率。

例如:

raw-image

2. Power Rule 的應用:解釋如何變成 2X

Power Rule 的公式:

raw-image

次數拉到係數:Power Rule 的核心,將 n 拉到前面當作係數。

raw-image

降一次次數:Power Rule 的另一部分,將 xn 的次數 n 減少 1。

raw-image

示範習題:結合二項式定理的微分

微分

微分

計算步驟:把次項拉到常數再降一級

raw-image

Chain Rule 鍊鎖律:先微外再微內

有大函數包小函數的狀況,也可以理解成有很多層括弧的情況。通常會跟 Power Rule 一起使用。

raw-image
raw-image

再舉個例子:

raw-image

多變數偏微分 (有 X 和 Y)

偏微分 (Partial Differentiation)

  • 對象:多變數函數 f(x,y,z,… )。
    • 例如:f(x,y)=x2+y2 
  • 目的:研究函數對某一個變數的變化率,其他變數視為常數不變。


raw-image


以上就是我的學習筆記,圖中公式是靠 ChatGPT 協助生成,如果錯誤請不吝指正!

備註:好感動!外文系畢業後居然還可以保有數學腦,高中數學真的沒有白學~



avatar-img
越南放大鏡 X 下班資工系
13會員
60內容數
雙重身份:越南放大鏡 X 下班資工系 政大東南亞語言學系是我接觸越南語的起點,畢業後找越南外派工作的生活跟資訊時,發現幾乎都是清單式的分享,很難身歷其境。所以我希望「越南放大鏡」可以帶讀者看到更多細節和深入的觀察。 - 下班資工系則是自學資工系的課程內容,記錄實際操作的過程,學習理論的過程。希望可以跟讀者一起成長。
留言
avatar-img
留言分享你的想法!
本系列文章將循序漸進地介紹 JavaScript 的核心概念,從基礎語法到進階應用,例如非同步程式設計和 React 基礎。內容淺顯易懂,並使用生活化的比喻幫助讀者理解,搭配程式碼範例,適合 JavaScript 初學者學習。
本文介紹行動通訊網路的演進歷史,從1G到5G,並說明ITU與3GPP在制定通訊規格上的重要角色,以及5G的三大關鍵應用場景:URLLC、eMBB和mMTC。
這篇文章說明網路的七層模型、IP 位址、通訊埠、TCP/UDP 協定、HTTP 協定、HTTP 狀態碼以及 WebSocket,並解釋它們之間的關係與互動方式。文中包含許多圖表和範例,幫助讀者理解這些網路概念。
本系列文章將循序漸進地介紹 JavaScript 的核心概念,從基礎語法到進階應用,例如非同步程式設計和 React 基礎。內容淺顯易懂,並使用生活化的比喻幫助讀者理解,搭配程式碼範例,適合 JavaScript 初學者學習。
本文介紹行動通訊網路的演進歷史,從1G到5G,並說明ITU與3GPP在制定通訊規格上的重要角色,以及5G的三大關鍵應用場景:URLLC、eMBB和mMTC。
這篇文章說明網路的七層模型、IP 位址、通訊埠、TCP/UDP 協定、HTTP 協定、HTTP 狀態碼以及 WebSocket,並解釋它們之間的關係與互動方式。文中包含許多圖表和範例,幫助讀者理解這些網路概念。