Week 2 詳細重點摘要(ML 概念(二)→ 梯度下降 × 前向/反向傳播的銜接)🤖📉🧠

更新 發佈閱讀 8 分鐘

Week2 主線:把「訓練」看成一個最佳化問題:最小化 Loss(θ),用梯度下降更新參數 θ。

(Week3–4 的 MLP / Backprop 只是把「θ 很多、鏈鎖律很長」而已)

0) 本週你一定要接起來的 6 個名詞

  1. Model:ŷ = f(x; θ)(θ=權重W、偏置b)
  2. Loss:L(ŷ, y)(錯多少)
  3. Objective:J(θ)=平均損失(全資料的錯)
  4. Gradient:∇θJ(往哪個方向 J 變大最快)
  5. Gradient Descent:θ ← θ − η∇θJ
  6. Generalization:val/test 表現才是重點

1) 前向傳播 Forward Pass 是什麼?

前向傳播就是:把輸入 x 丟進模型,算出預測 ŷ,再算 Loss。

最基本線性模型(先用它理解全部 DL):

  • ŷ = wᵀx + b
  • Loss:
    • 回歸常見 MSE:L = (1/2)(ŷ−y)²
    • 分類常見 Cross-Entropy(Week3會更重)

前向傳播流程(你要背成固定句):

x →(乘權重加偏置)→ ŷ →(套 Loss)→ L


2) 梯度下降 Gradient Descent:你在做的事其實很單純

A) 目標函數

  • J(θ)= (1/N) Σ L(f(xᵢ;θ), yᵢ)

B) 更新規則(必背)

  • θ ← θ − η ∇θJ(θ)

C) Learning Rate η 的直覺(必考)

  • η 太大:可能震盪、發散、Loss 上上下下甚至爆掉
  • η 太小:收斂超慢,像在爬山「小碎步」

一句話:η 控制每一步走多大;梯度告訴你往哪走。


3) 梯度是什麼?為什麼是「最陡下降」?

  • ∇J 指向 上升最快 的方向
  • 所以 −∇J 指向 下降最快 的方向
    這就是為什麼更新式要「減」梯度。

幾何直覺:

  • 等高線橢圓很扁(特徵尺度差很多)→ GD 會左右震盪
  • 這也連回 Week1:標準化會讓等高線更像圓 → GD 更穩更快

4) 反向傳播 Backprop(Week2先懂本質,不用背整串公式)

反向傳播本質只有一句:

用鏈鎖律把 Loss 對每個參數的偏導數算出來。

先從最簡單回歸 MSE 開始:

  • L = (1/2)(ŷ−y)²
  • dL/dŷ = (ŷ−y)

若 ŷ = wᵀx + b

  • dŷ/dw = x
  • dŷ/db = 1

所以:

  • dL/dw = (dL/dŷ)(dŷ/dw) = (ŷ−y)x
  • dL/db = (dL/dŷ)(dŷ/db) = (ŷ−y)

更新:

  • w ← w − η(ŷ−y)x
  • b ← b − η(ŷ−y)

你要抓住:誤差 (ŷ−y) 會乘上輸入 x 來更新權重。

(MLP 只是多很多層,每層都在做同樣的事)

5) Batch / Mini-batch / SGD:差在哪?為什麼影響穩定?

  • Batch GD:每次用全資料算梯度
    • 優點:方向準、平滑
    • 缺點:很慢、吃記憶體
  • SGD:每次用 1 筆資料
    • 優點:快、能逃離局部凹陷
    • 缺點:噪聲大、Loss 抖
  • Mini-batch(最常用):一次用 B 筆(32/64/128…)
    • 折衷:速度快又相對穩

一句話:batch 越大越穩但慢;batch 越小越吵但快。


6) Loss Surface(損失地形)與 Local Minima / Saddle Point(直覺就好)

在高維參數空間,常見問題不一定是「卡在局部最小」,更多是:

  • Saddle point(鞍點):某些方向下降、某些方向上升 → 梯度接近 0 很容易慢住
  • mini-batch 的噪聲有時反而能幫你「抖出去」

7) 訓練曲線你要看什麼(Week1延伸到 Week2)

你不只要判斷 overfit/underfit,還要多看:

  • Loss 是否震盪?(η 太大 / batch 太小 / 資料尺度問題)
  • Loss 是否幾乎不降?(η 太小 / 特徵太爛 / 模型太弱)
  • Train loss 降、Val loss 不降(開始 overfit → early stopping / regularization)

8) Week2 必背「秒答公式與句子」

1. 什麼是 θ?(舉例 W、b)

θ 是模型所有可學的參數集合。例如線性/MLP 裡的 權重 W(或 w)、偏置 b(還可能包含各層的 W¹,b¹…)。

2. J(θ) 和 L(ŷ,y) 差在哪?

L(ŷ,y):單筆或單次輸出的「損失」(錯多少)。

J(θ):把所有資料(或一個 batch)的損失做平均/加總後得到的「目標函數」,是訓練真正要最小化的量:

J(θ)= (1/N) Σ L(f(xᵢ;θ), yᵢ)。

3. 為什麼是 θ − η∇J?

∇J 指向 J 上升最快 的方向,所以要讓 J 下降最快就往 反方向走:−∇J。

η 是步長,控制每次更新走多大,因此更新式是 θ ← θ − η∇J。

4. η 太大/太小各會出現什麼現象?

η 太大:loss 劇烈震盪、可能不降反升、甚至發散/爆掉(NaN)。

η 太小:收斂很慢、loss 降得像爬行,訓練時間拉長且可能卡在高 loss 很久。

5. Batch vs SGD vs Mini-batch 差在哪?

Batch GD:每次用全資料算梯度更新;穩但慢、吃記憶體。

SGD:每次用 1 筆資料更新;快但噪聲大、loss 抖。

Mini-batch:每次用 B 筆(如 32/64/128);速度與穩定的折衷、最常用。

6. dL/dŷ 在 MSE 下是什麼?

若 L = (1/2)(ŷ−y)²,則 dL/dŷ = (ŷ−y)。

(若 L = (ŷ−y)²,則 dL/dŷ = 2(ŷ−y),差一個常數而已。)

7. 若 ŷ = wᵀx+b,dL/dw 是什麼?

dL/dw = (dL/dŷ)(dŷ/dw) = (ŷ−y) x(向量)。

同理 dL/db = (ŷ−y)。

8. 訓練 loss 抖很大,你會先檢查哪 2 件事?

Learning rate η 是否太大。

Batch size 是否太小 / 特徵是否沒標準化(尺度差太多)(兩者都會讓梯度噪聲或更新步伐不穩)。


9) Week2 自測(

  1. 什麼是 θ?(舉例 W、b)
  2. J(θ) 和 L(ŷ,y) 差在哪?
  3. 為什麼是 θ − η∇J?
  4. η 太大/太小各會出現什麼現象?
  5. Batch vs SGD vs Mini-batch 差在哪?
  6. dL/dŷ 在 MSE 下是什麼?
  7. 若 ŷ = wᵀx+b,dL/dw 是什麼?
  8. 訓練 loss 抖很大,你會先檢查哪 2 件事?(η、標準化、batch)

8 題)

留言
avatar-img
「2060AIHANS 애한스|頂大修課紀錄研究室」
0會員
118內容數
「2060AIHANS 애한스|修課紀錄研究室」專門紀錄我在大學修課的學習軌跡:每堂課重點推導、作業解題、實驗量測、除錯筆記與延伸閱讀,皆以工程化方式整理成可複用模板。目標是讓知識可追溯、能力可量化,並把課堂收穫轉化為可長期複利的技術資產。
你可能也想看
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
I actually finished writing this post at the end of August last year, almost 7 months ago! The post has been sitting in Baba's inbox waiting for his
Thumbnail
I actually finished writing this post at the end of August last year, almost 7 months ago! The post has been sitting in Baba's inbox waiting for his
Thumbnail
我是一個小說家。這系列文章將分享我的本週創作進度、創作上的學習及相關感想,直到我真正完成小說的那一天。
Thumbnail
我是一個小說家。這系列文章將分享我的本週創作進度、創作上的學習及相關感想,直到我真正完成小說的那一天。
Thumbnail
剛剛結束了個急行軍海外出差行程,只在總公司開了一個上午的會就匆匆回國了。 雖然是短短的會議,但是獲益良多。 從討論當中,讓我在目前糟糕的現況當中,看到一絲絲曙光。
Thumbnail
剛剛結束了個急行軍海外出差行程,只在總公司開了一個上午的會就匆匆回國了。 雖然是短短的會議,但是獲益良多。 從討論當中,讓我在目前糟糕的現況當中,看到一絲絲曙光。
Thumbnail
本篇文章分享了這週的幾個收穫,包括運用卡牌進行價值觀的深度梳理諮詢、準備「自我探索」課程、以及嘗試解決肩頸疼痛的瑜珈練習。此外,文中也提到了一個分心日記的實踐方法,並且分享了在日本購買的美味泡麵經驗,最後感謝了支持者的幫助與鼓勵。
Thumbnail
本篇文章分享了這週的幾個收穫,包括運用卡牌進行價值觀的深度梳理諮詢、準備「自我探索」課程、以及嘗試解決肩頸疼痛的瑜珈練習。此外,文中也提到了一個分心日記的實踐方法,並且分享了在日本購買的美味泡麵經驗,最後感謝了支持者的幫助與鼓勵。
Thumbnail
𝘿𝙖𝙮 𝟴 𝙅𝙪𝙡𝙮 𝟴 𝘿𝙖𝙮 𝟵 𝙅𝙪𝙡𝙮 𝟵 𝘿𝙖𝙮 𝟭𝟬 𝙅𝙪𝙡𝙮 𝟭𝟬
Thumbnail
𝘿𝙖𝙮 𝟴 𝙅𝙪𝙡𝙮 𝟴 𝘿𝙖𝙮 𝟵 𝙅𝙪𝙡𝙮 𝟵 𝘿𝙖𝙮 𝟭𝟬 𝙅𝙪𝙡𝙮 𝟭𝟬
Thumbnail
6/12-6/18        六月十二日,農曆五月初八。上午去地級市區的市民服務中心大樓拜訪環評報告書的制作單位,交流意見后,簽訂了環評報告書的委託合約。     一點多,妻子打電話來說媽媽己經量不到血壓了,脈博時有時無,可能撐不到我明天回家。我立即更改行程,訂到了浦東八點半飛往高雄的
Thumbnail
6/12-6/18        六月十二日,農曆五月初八。上午去地級市區的市民服務中心大樓拜訪環評報告書的制作單位,交流意見后,簽訂了環評報告書的委託合約。     一點多,妻子打電話來說媽媽己經量不到血壓了,脈博時有時無,可能撐不到我明天回家。我立即更改行程,訂到了浦東八點半飛往高雄的
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News