第二部:《深度學習》4/100 前向傳播與反向傳播原理 🔄 資訊流動 + 誤差修正 = 學習核心!

更新於 發佈於 閱讀時間約 6 分鐘

AI時代系列(2) 機器學習三部曲: 🔹 第二部:《深度學習 —— 神經網路的革命》

4/100 第一週:深度學習基礎入門

4.前向傳播與反向傳播原理 🔄 資訊流動 + 誤差修正 = 學習核心!

________________________________________

✅ 核心概念:

神經網路能夠學習的關鍵,就在於兩個過程的協同作用:

前向傳播(Forward Propagation):資料從輸入層經過每一層神經元,計算出預測值。

反向傳播(Backpropagation):將預測與實際差距的「誤差」向後傳遞,並根據梯度調整權重。

📌 一句話總結:

前向傳播讓神經網路產生預測,反向傳播讓它學會修正錯誤。

________________________________________

✅ 前向傳播流程:

輸入層 → 隱藏層(加權 + 激活)→ 輸出層(產生預測結果)

數學表示:

z = W·x + b

(這步驟就是把所有輸入乘上對應的權重,加總後再加上偏差,得到神經元的線性輸出。)

a = activation(z)

(這一步將 z 經過激活函數處理,使神經元能夠學習非線性模式,從而處理複雜的資料結構。)

這兩個公式是神經網路中單個神經元的運作流程,簡單又關鍵。

🔍 一句話簡述:

神經元先加權輸入(z),再用激活函數決定輸出(a)——從線性到非線性的轉換過程。

其中的:

W: 權重矩陣

x : 前一層輸出(或輸入)

b : 偏差項

z : 線性組合輸入

a : 激活後的輸出

________________________________________

✅ 反向傳播流程:

從輸出層開始 → 對誤差進行微分 → 利用鏈式法則向前一層傳遞

步驟簡化:

1️⃣ 計算損失函數的偏導數

2️⃣ 對各層的權重與偏差計算梯度(∂L/∂W, ∂L/∂b)

3️⃣ 使用梯度下降(Gradient Descent)更新參數

W_new = W_old - α * ∂L/∂W

這條公式意思是:「把權重往讓損失變小的方向調整一點點」,方向由梯度決定,步長由 α 控制。

b_new = b_old - α * ∂L/∂b

同理,這是更新偏差(bias)的方式

根據損失對偏差的梯度來修正 b 的值,使預測更準確

其中:

W:權重

L: 損失函數(如 MSE、Cross Entropy)

α: 學習率(Learning Rate)

∂L/∂W: 權重的梯度

🔍 一句話簡述:

「往讓損失變小的方向,調整權重與偏差。」

也就是說,透過梯度計算得知誤差變化的方向,然後反方向調整權重與偏差,讓模型預測越來越準。這就是神經網路學習的核心機制。

________________________________________

✅ 前向 vs 反向 傳播對照表:

在神經網路中,前向傳播負責將輸入資料依序傳遞至輸出層,經過加權總和與激活函數計算出預測結果,屬於單純的推理過程;而反向傳播則從輸出層開始,根據預測與真實答案的誤差,透過損失函數微分與鏈式法則反向計算各層參數的梯度,並利用梯度下降法更新權重與偏差,是真正實現模型學習的關鍵機制。兩者相互配合,構成神經網路訓練的完整流程。

________________________________________

✅ 學習核心:「誤差最小化」🎯

所有神經網路的訓練目標都是——讓預測誤差變小!

這就是深度學習中最核心的理念:

誤差(Loss)越小 → 預測越準 → 模型越強

這個過程就像學生寫作業錯了,老師糾正錯誤,學生修正後學得更好。

________________________________________

✅ 技術補充:常用損失函數

MSE 均方誤差 迴歸問題 L = 1/n Σ(y - ŷ)²

Binary Cross Entropy 二分類問題 L = -[y log ŷ + (1-y) log(1-ŷ)]

Categorical Cross Entropy 多分類問題 L = -Σ(yᵢ log ŷᵢ)

深度學習的核心學習機制是由前向傳播與反向傳播共同構成。前向傳播將輸入資料透過權重與激活函數計算出預測結果;反向傳播則根據預梯度下降法不斷最小化誤差,是神經網路持續學習與優化的關鍵機制,實現從資料中提取知識的能力。

________________________________________

✅ 小結與啟示 💡

✅ 前向傳播幫助模型做出預測

✅ 反向傳播幫助模型修正錯誤、學習進步

✅ 梯度下降是神經網路學習的方向盤與油門

✅ 這就是「深度學習」的真正學習循環!

📌 小結金句:

「前向傳播讓模型預測結果,反向傳播讓模型變得更聰明。」




留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
4會員
112內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/07/11
感知機是神經網路的最基礎單元,模擬單一生物神經元的運作,由輸入、權重、偏差與激活函數組成。它可處理線性分類問題,是現代多層感知機(MLP)與深度學習架構的核心基礎。透過多層結構與非線性激活函數(如 ReLU、Sigmoid),神經網路能學習複雜關係並解決非線性問題。
2025/07/11
感知機是神經網路的最基礎單元,模擬單一生物神經元的運作,由輸入、權重、偏差與激活函數組成。它可處理線性分類問題,是現代多層感知機(MLP)與深度學習架構的核心基礎。透過多層結構與非線性激活函數(如 ReLU、Sigmoid),神經網路能學習複雜關係並解決非線性問題。
2025/07/11
深度學習與傳統機器學習最大的差異在於是否需人工進行特徵工程。傳統方法如決策樹、SVM 依賴專家手動設計特徵,適端到端學習與表徵抽象能力,是當代 AI 革命的核心。
2025/07/11
深度學習與傳統機器學習最大的差異在於是否需人工進行特徵工程。傳統方法如決策樹、SVM 依賴專家手動設計特徵,適端到端學習與表徵抽象能力,是當代 AI 革命的核心。
2025/06/01
深度學習是以多層神經網路模仿人腦突觸連結的智慧革命,能自動從大量資料中抽取高層特徵,突破傳統機器學習對人工特徵與規則的依賴。它結合前向傳播與反向傳播,透過梯度下降優化權重,讓影像辨識、語音翻譯、語意理解、醫療診斷等應用迅速發展,正成為AI時代最核心的技術基礎,推動自動駕駛、生成式創作與城市邁向現實。
Thumbnail
2025/06/01
深度學習是以多層神經網路模仿人腦突觸連結的智慧革命,能自動從大量資料中抽取高層特徵,突破傳統機器學習對人工特徵與規則的依賴。它結合前向傳播與反向傳播,透過梯度下降優化權重,讓影像辨識、語音翻譯、語意理解、醫療診斷等應用迅速發展,正成為AI時代最核心的技術基礎,推動自動駕駛、生成式創作與城市邁向現實。
Thumbnail
看更多
你可能也想看
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》時,文中介紹了殘差網路,並推薦了兩篇論文;因為在看了書後,對殘差網路的概念還是不很清楚,於是決定用ChatGPT翻譯這兩篇論文來增強理解,以下正文是第一篇論文:Deep Residual Learning for Image Re
Thumbnail
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》時,文中介紹了殘差網路,並推薦了兩篇論文;因為在看了書後,對殘差網路的概念還是不很清楚,於是決定用ChatGPT翻譯這兩篇論文來增強理解,以下正文是第一篇論文:Deep Residual Learning for Image Re
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 接著來談 Transformer 架構中的 Feedforward Network (FFN): 其為全連接的神經網路架構 回顧 AI說書 - 從0開始 - 64
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 接著來談 Transformer 架構中的 Feedforward Network (FFN): 其為全連接的神經網路架構 回顧 AI說書 - 從0開始 - 64
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News