第二部：《深度學習》18/100 早停法與模型保存 🛑 避免過度訓練，保留最好版本！

Hansen W

發佈於AI科技機器學習修煉坊

2025/09/04 更新2025/09/04 發佈閱讀 6 分鐘

AI時代系列(2) 機器學習三部曲: 🔹 第二部：《深度學習 —— 神經網路的革命》

18/100 第二週：多層感知器 MLP

18.早停法與模型保存 🛑 避免過度訓練，保留最好版本！

________________________________________

✅ 核心概念：

神經網路訓練越久不一定越好，太早停 = 還沒學會，太晚停 = 開始記住雜訊 → 過擬合！

📌 早停法（Early Stopping）能在模型效能停止進步時自動中斷訓練，

📌 模型保存（Checkpoint）能在最佳時刻儲存權重，避免白費好結果。

🎯 目標是：找出驗證集表現最好的模型版本，並及時保留！

________________________________________

🧠 什麼是「早停」？

早停（Early Stopping）是一種監控驗證集表現（如 accuracy、loss），當連續 N 次 epoch 沒有改善，就自動停止訓練的策略。

📌 典型流程：

1. 訓練進行中，監控驗證集 loss（或 accuracy）

2. 若「連續 N 輪沒改善」 → 停止訓練

3. 通常搭配模型儲存（Checkpoints）保留最佳版本

________________________________________

🛠 TensorFlow 實作範例：

python

from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint

# 儲存模型最佳權重

checkpoint_cb = ModelCheckpoint("best_model.h5",

save_best_only=True,

monitor="val_loss")

# 設定早停

earlystop_cb = EarlyStopping(patience=5, restore_best_weights=True)

# 加入 callbacks

model.fit(x_train, y_train,

validation_split=0.2,

epochs=100,

callbacks=[earlystop_cb, checkpoint_cb])

在深度學習訓練中，**早停（EarlyStopping）與模型檢查點（ModelCheckpoint）**是常用的技巧。早停能在驗證集表現連續數個回合未改善時自動停止訓練，避免過度擬合並節省時間；而模型檢查點則會在訓練過程中自動保存驗證效果最佳的權重，確保最終使用的模型表現最優。這樣的設計讓我們不用手動監控訓練過程，就能保留最佳結果並提升整體訓練效率。

________________________________________

🔁 常見參數說明：

patience: 容忍幾個 epoch 沒有進步才停止（常設為 3～10）

monitor: 監控目標，可選 "val_loss" 或 "val_accuracy"

restore_best_weights: 訓練結束時，自動還原最佳模型權重

save_best_only: 是否僅儲存最佳模型

________________________________________

🔍 模型保存的重要性

即使沒有早停，保存模型權重也是實務中的基本功：

python

# 儲存整個模型（架構+權重）

model.save("final_model.h5")

# 讀取模型

from tensorflow.keras.models import load_model

model = load_model("final_model.h5")

📦 模型保存能：

• 快速部署與載入

• 節省重訓時間

• 支援跨平台（雲端部署、行動端轉換）

________________________________________

📊 為何要早停 + 儲存？

問題解法

訓練過久 → 過擬合 ✅ 使用 EarlyStopping

最佳模型被覆蓋 ✅ 使用 ModelCheckpoint

訓練波動無法掌握進度 ✅ 自動偵測最佳時間點停訓

模型訓練耗費大量時間 ✅ 中途停止並重複利用最佳模型

________________________________________

🧠 實務建議與技巧

• patience=5~10 是較穩健的設置

• 可同時監控 val_loss 與 val_accuracy，交叉觀察

• 訓練前期「震盪」是正常，後期才要啟動 early stop 判斷

• 使用 restore_best_weights=True 很關鍵，否則最後一輪結果可能不是最佳

________________________________________

🎯 小結與啟示：

✅ 深度學習不只是訓練模型，更是「知道何時該停」

✅ 提早中斷、保留最佳，是 AI 訓練實戰的成熟策略

✅ 模型儲存與載入功能 = 跨任務、跨平台、跨時間的知識延續

Hansen W的沙龍AI科技機器學習修煉坊

留言

留言分享你的想法！

Hansen W的沙龍

11會員

274內容數

AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台，主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例，更強調理性思維與行動力的結合。無論你是AI初學者、創業者，還是追求人生升維的行者，都能在這裡找到前進的方向與志同道合的夥伴。

Hansen W的沙龍的其他內容

2025/09/04

第二部：《深度學習》17/100 權重初始化技巧 🌱 好的開始是成功的一半！

權重初始化決定神經網路能否順利啟動學習。若全部設為零，對稱性無法打破；隨機過大或過小則會造成梯度爆炸或消失。常見方法中，Xavier 適合 Sigmoid/Tanh，He 初始化適合 ReLU 系列，能提升收斂速度與穩定性；隨機正態易不穩定，Zero 無法收斂。正確初始化策略是深度學習成功的第一步。

2025/09/04

第二部：《深度學習》17/100 權重初始化技巧 🌱 好的開始是成功的一半！

2025/09/04

第二部：《深度學習》16/100 批次訓練與迷你批次策略 📦 批次訓練讓模型更有效率！

批次訓練決定每次更新使用多少資料，影響速度與穩定性。Batch GD 穩定但耗資源，SGD 更新快卻波動大，Mini-Batch 則折衷最常用。常見批次大小為 32～128，能兼顧效率與收斂穩定性，並適合 GPU 加速。批次過大可能導致泛化下降或記憶體不足，因此需根據資料與硬體調整。

2025/09/04

第二部：《深度學習》16/100 批次訓練與迷你批次策略 📦 批次訓練讓模型更有效率！

2025/09/04

第二部：《深度學習》15/100 損失函數實例：交叉熵 vs 均方誤差 ⚖ 不同任務選對工具才有效！

損失函數是模型學習的方向指引。分類任務用交叉熵，能精準衡量機率差異並加速收斂；迴歸任務用均方誤差，適合連續數值預測但對離群值敏感。若誤用 MSE 做分類，會導致收斂慢且準確率差。選對損失函數才能提升模型效能。

2025/09/04

第二部：《深度學習》15/100 損失函數實例：交叉熵 vs 均方誤差 ⚖ 不同任務選對工具才有效！