第二部:《深度學習》6/100 損失函數與優化器概念 📉 幫助模型走向正確方向的指南針!

更新於 發佈於 閱讀時間約 8 分鐘

AI時代系列(2) 機器學習三部曲: 🔹 第二部:《深度學習 —— 神經網路的革命》

6/100 第一週:深度學習基礎入門

6.損失函數與優化器概念 📉 幫助模型走向正確方向的指南針!

幫助模型走向正確方向的指南針!

________________________________________

✅ 核心概念:

在深度學習中,模型的任務是「預測」,而學習的目標是讓預測越來越準確。這就需要兩個關鍵角色:

損失函數(Loss Function): 損失函數就是用來告訴模型「你預測得有多差」的一個分數。

它會計算「模型預測值」和「正確答案」之間的差距,這個差距越小,代表模型學得越好;差距越大,代表模型還需要再學習。

優化器(Optimizer): 根據損失的大小,調整網路中的參數,像是修正方向的駕駛員。

📌 一句話總結:

損失函數決定學習目標,優化器決定走哪條路抵達目標。

________________________________________

✅ 損失函數是什麼?

損失函數(Loss Function)會輸出一個數值,代表模型目前的預測錯誤程度,這個值越小代表模型越準確。

類型 常見損失函數 適用場景

迴歸 MSE(均方誤差) 預測房價 銷售量等連續值

二分類 Binary Cross Entropy 是/否、0/1 任務

多分類 Categorical Cross Entropy 類別標籤輸出(貓/狗/鳥)

語意生成 Kullback-Leibler Divergence 預測機率分佈

________________________________________

✅ 常見損失函數簡介:

1. MSE L = (1/n) Σ(y - ŷ)² 👉 測量預測值和真實值的距離,差距越大懲罰越重,適合用來訓練精準度要求高的迴歸模型。

2. MAE `L = (1/n) Σ y - ŷ 👉 直接看預測值和真實值的距離有多遠,不誇大大誤差,比較穩定,適合用在誤差容忍範圍大的情境。

3. Binary Cross Entropy - [y log(ŷ) + (1-y) log(1-ŷ)] 👉 判斷模型預測「對與錯」的信心程度,預測越準(機率越接近真實標籤)損失越小,是二分類的標準公式。

4. Categorical Cross Entropy -Σ yᵢ log(ŷᵢ) 👉 看模型是否把最高的預測機率給了正確的類別,越準損失越低,是多分類常見用法。

________________________________________

✅ 優化器是什麼?

優化器(Optimizer)根據損失函數的結果「反向調整」每個神經元的參數(權重與偏差),讓模型一步步朝正確方向前進。

________________________________________

✅ 常見優化器比較

  • SGD(Stochastic Gradient Descent)
    • 特點:最基本的隨機梯度下降法
    • 優點:簡單、直觀
    • 缺點:收斂慢、易受局部極小影響
    • 是否常用:⚠️ 需搭配學習率調整、Momentum 等技巧使用
  • Momentum
    • 特點:在 SGD 基礎上加入慣性項
    • 優點:加速收斂、減少震盪
    • 缺點:需手動調整動量參數
    • 是否常用:✅ 常用於提升訓練穩定性
  • RMSProp
    • 特點:根據參數變化自動調整學習率
    • 優點:適合非平穩目標函數(如 RNN)
    • 缺點:對超參數敏感
    • 是否常用:✅ 對於時序資料訓練效果佳
  • Adam(Adaptive Moment Estimation)
    • 特點:融合 Momentum 與 RMSProp
    • 優點:收斂快、穩定性高、自動調整學習率
    • 缺點:參數複雜,可能導致過擬合
    • 是否常用:✅✅✅ 深度學習預設首選,泛用性極強
  • Adagrad
    • 特點:對出現頻率高的參數自動降低學習率
    • 優點:適合處理稀疏特徵(如 NLP)
    • 缺點:學習率遞減過快,易過早停止學習
    • 是否常用:⚠️ 特定場景適用,不適合長期訓練

________________________________________

✅ Adam 優化器特點(深度學習首選):

1️⃣ 自動調整每個參數的學習率

2️⃣ 適合大多數情境與資料類型

3️⃣ 收斂速度快,穩定性高

4️⃣ 為預設選項(TensorFlow / PyTorch)

________________________________________

✅ PyTorch 實作小範例:

python

import torch.nn as nn

import torch.optim as optim

model = nn.Sequential(

nn.Linear(10, 5),

nn.ReLU(),

nn.Linear(5, 1),

nn.Sigmoid()

)

# 損失函數

criterion = nn.BCELoss()

# 優化器

optimizer = optim.Adam(model.parameters(), lr=0.001)

這段 Python 程式碼使用 PyTorch 建立了一個用於二分類任務的簡單神經網路模型。模型透過 nn.Sequential 串接層級,包括兩層全連接層(Linear)、ReLU 激活函數,以及 Sigmoid 函數將輸出壓縮為 0~1 的機率值,適合預測「是或否」的問題(如是否購買、是否為垃圾郵件)。損失函數採用 BCELoss(二元交叉熵),用來衡量預測機率與實際標籤的差距,越準損失越小;優化器則使用 Adam,會自動調整模型參數以降低損失。整體架構簡單清晰,適合作為初學者實作二分類問題的範例。

________________________________________

✅ 小結與啟示 💡

✅ 損失函數 = 模型走錯路的評分機制

✅ 優化器 = 根據評分修正方向的控制系統

✅ 搭配合理的學習率與初始化策略,能讓深度學習真正「學得會」!

✅ 沒有這兩者,就像沒有指南針和方向盤的自駕車:跑不了遠、走不穩定!


留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
4會員
112內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/07/11
激活函數是神經網路中賦予模型非線性能力的關鍵元件,使其能處理複雜的模式與資料。若缺乏激活函數,多層網路將等同於單層線性模型。常見函數如 ReLU 計算快速且有效避免梯度消失,是中間層的主流選擇;Sigmoid 適用於二分類輸出;Softmax 則將輸出轉為機率分布,常用於多分類任務。
2025/07/11
激活函數是神經網路中賦予模型非線性能力的關鍵元件,使其能處理複雜的模式與資料。若缺乏激活函數,多層網路將等同於單層線性模型。常見函數如 ReLU 計算快速且有效避免梯度消失,是中間層的主流選擇;Sigmoid 適用於二分類輸出;Softmax 則將輸出轉為機率分布,常用於多分類任務。
2025/07/11
深度學習的核心學習機制由前向傳播與反向傳播構成:前向傳播將輸入資料經加權與激活函數處理,產生預測結果;反向傳播則根據預測與真實值的誤差,計算損失對權重與偏差的梯度,並透過梯度下降法進行調整,讓模型不斷優化。此過程持續迭代,誤差越小,預測越準。
2025/07/11
深度學習的核心學習機制由前向傳播與反向傳播構成:前向傳播將輸入資料經加權與激活函數處理,產生預測結果;反向傳播則根據預測與真實值的誤差,計算損失對權重與偏差的梯度,並透過梯度下降法進行調整,讓模型不斷優化。此過程持續迭代,誤差越小,預測越準。
2025/07/11
感知機是神經網路的最基礎單元,模擬單一生物神經元的運作,由輸入、權重、偏差與激活函數組成。它可處理線性分類問題,是現代多層感知機(MLP)與深度學習架構的核心基礎。透過多層結構與非線性激活函數(如 ReLU、Sigmoid),神經網路能學習複雜關係並解決非線性問題。
2025/07/11
感知機是神經網路的最基礎單元,模擬單一生物神經元的運作,由輸入、權重、偏差與激活函數組成。它可處理線性分類問題,是現代多層感知機(MLP)與深度學習架構的核心基礎。透過多層結構與非線性激活函數(如 ReLU、Sigmoid),神經網路能學習複雜關係並解決非線性問題。
看更多
你可能也想看
Thumbnail
家中修繕或裝潢想要找各種小零件時,直接上網採買可以省去不少煩惱~看看Sylvia這回為了工地買了些什麼吧~
Thumbnail
家中修繕或裝潢想要找各種小零件時,直接上網採買可以省去不少煩惱~看看Sylvia這回為了工地買了些什麼吧~
Thumbnail
👜簡單生活,從整理包包開始!我的三款愛用包+隨身小物清單開箱,一起來看看我每天都帶些什麼吧🌿✨
Thumbnail
👜簡單生活,從整理包包開始!我的三款愛用包+隨身小物清單開箱,一起來看看我每天都帶些什麼吧🌿✨
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
資料前處理(Data Preprocessing)中的重要角色-缺失值處理。從檢查、刪除到填充缺失值,以及插值法和機器學習算法的應用方法。Pandas 缺失值處理基礎方法、進階填充缺失值、鐵達尼號存活預測資料集的示例和機器學習算法填補缺失值方法的介紹與使用。
Thumbnail
資料前處理(Data Preprocessing)中的重要角色-缺失值處理。從檢查、刪除到填充缺失值,以及插值法和機器學習算法的應用方法。Pandas 缺失值處理基礎方法、進階填充缺失值、鐵達尼號存活預測資料集的示例和機器學習算法填補缺失值方法的介紹與使用。
Thumbnail
呈上篇介紹如何訓練模型,此篇就主要介紹如何利用訓練好的模型來生成圖片 [深度學習][Python]DCGAN訓練生成手寫阿拉伯數字_生成篇 生成的結果 生成的圖片大小會根據,當初設置的生成器輸出大小來決定,當你使用生成對抗網絡(GAN)生成圖像時,生成器模型的最後一層通常會決定生成圖
Thumbnail
呈上篇介紹如何訓練模型,此篇就主要介紹如何利用訓練好的模型來生成圖片 [深度學習][Python]DCGAN訓練生成手寫阿拉伯數字_生成篇 生成的結果 生成的圖片大小會根據,當初設置的生成器輸出大小來決定,當你使用生成對抗網絡(GAN)生成圖像時,生成器模型的最後一層通常會決定生成圖
Thumbnail
本文將延續上一篇文章,經由訓練好的GAN模型中的生成器來生成圖片 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 [深度學習][Python]訓練CNN的GAN模型來生成圖片_訓練篇 相較之下CNN的GAN生成的效果比較好,但模型也相對比較複雜,訓練時間花的也比較
Thumbnail
本文將延續上一篇文章,經由訓練好的GAN模型中的生成器來生成圖片 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 [深度學習][Python]訓練CNN的GAN模型來生成圖片_訓練篇 相較之下CNN的GAN生成的效果比較好,但模型也相對比較複雜,訓練時間花的也比較
Thumbnail
延續上一篇訓練GAM模型,這次我們讓神經網路更多層更複雜一點,來看訓練生成的圖片是否效果會更好。 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 資料集分割處理的部分在延續上篇文章,從第五點開始後修改即可,前面都一樣 訓練過程,比較圖 是不是CNN的效果比MLP還要好,
Thumbnail
延續上一篇訓練GAM模型,這次我們讓神經網路更多層更複雜一點,來看訓練生成的圖片是否效果會更好。 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 資料集分割處理的部分在延續上篇文章,從第五點開始後修改即可,前面都一樣 訓練過程,比較圖 是不是CNN的效果比MLP還要好,
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
Thumbnail
本文主要介紹,如何利用VAE變分自編碼器來訓練生成圖片。 訓練集資料將採用TF影像資料庫中的fashion_mnist VAE變分自編碼器簡單介紹 •VAE(Variational Auto-Encoder)中文名稱變分自編碼器,主要是一種將原始資料編碼到潛在向量空間,再編碼回來的神經網路。
Thumbnail
本文主要介紹,如何利用VAE變分自編碼器來訓練生成圖片。 訓練集資料將採用TF影像資料庫中的fashion_mnist VAE變分自編碼器簡單介紹 •VAE(Variational Auto-Encoder)中文名稱變分自編碼器,主要是一種將原始資料編碼到潛在向量空間,再編碼回來的神經網路。
Thumbnail
本文將展示使用不同激活函數(ReLU 和 Sigmoid)的效果。 一個簡單的多層感知器(MLP)模型來對 Fashion-MNIST 資料集進行分類。 函數定義 Sigmoid 函數 Sigmoid 函數將輸入壓縮到 0到 1 之間: 特性: 輸出範圍是 (0,1)(0, 1)(0,1
Thumbnail
本文將展示使用不同激活函數(ReLU 和 Sigmoid)的效果。 一個簡單的多層感知器(MLP)模型來對 Fashion-MNIST 資料集進行分類。 函數定義 Sigmoid 函數 Sigmoid 函數將輸入壓縮到 0到 1 之間: 特性: 輸出範圍是 (0,1)(0, 1)(0,1
Thumbnail
本文主要介紹神經網路訓練辨識的過程,利用fashion_mnist及簡單的神經網路來進行分類。 使用只有兩層的神經網路來訓練辨識fashion_mnist資料。
Thumbnail
本文主要介紹神經網路訓練辨識的過程,利用fashion_mnist及簡單的神經網路來進行分類。 使用只有兩層的神經網路來訓練辨識fashion_mnist資料。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News