第二部：《深度學習》8/100 過擬合與正則化方法 🧪 Dropout、L2 正則化讓模型不作弊！

Hansen W

發佈於AI科技機器學習修煉坊

2025/08/29 更新2025/08/29 發佈閱讀 5 分鐘

AI時代系列(2) 機器學習三部曲: 🔹 第二部：《深度學習 —— 神經網路的革命》

8/100 第一週：深度學習基礎入門

8.過擬合與正則化方法 🧪 Dropout、L2 正則化讓模型不作弊！

________________________________________

✅ 核心概念：

在訓練神經網路時，如果模型記住了訓練資料的細節與噪聲，卻無法泛化到新資料，我們稱之為「過擬合（Overfitting）」。

這就像學生死背答案，在模擬考拿高分，但到了真正考試卻表現慘烈。為了解決這個問題，我們需要「正則化（Regularization）」技術，讓模型學得「剛剛好」。

📌 一句話總結：

模型不是要完美記住訓練資料，而是要學會抽象規律。

________________________________________

✅ 過擬合的特徵與成因：

現象 - 解釋

訓練準確率高，測試準確率低 - 模型記住訓練資料，但無法泛化

損失函數在測試集上開始反彈 - 模型學到太多資料中的雜訊

網路太深 / 參數太多模型容量過大，容易記住不必要細節

訓練次數過多學太久 → 產生記憶效應

________________________________________

✅ 常見正則化方法一覽：

方法 : 概念 : 效果與用途

Dropout : 訓練時隨機「關掉」部分神經元 : 強制網路不能依賴特定神經元，提升泛化能力

L2 正則化 : 權重懲罰項，鼓勵小權重 : 抑制過大權重，讓模型更平滑

Early Stopping : 在驗證集表現最佳時提前停止訓練 : 避免訓練過頭

Data Augmentation : 擴增資料多樣性 : 增加泛化能力，常用於圖像/語音

Batch Normalization : 穩定輸入分佈 : 加速訓練並具備微正則化效果

________________________________________

✅ Dropout 機制 🔌

Dropout = 在每次訓練時隨機丟棄神經元

📌 概念：

• 每次前向傳播，隨機選擇一部分神經元不參與計算

• 減少神經元之間的依賴，提升模型魯棒性

📌 實作（PyTorch）：

python

import torch.nn as nn

model = nn.Sequential(

nn.Linear(128, 64),

nn.ReLU(),

nn.Dropout(p=0.5), # 50% 機率關閉

nn.Linear(64, 10)

)

這個模型就像一座小城市：資料從 128 維入口大門 進來，先經過 Linear 壓縮成 64 維大道，再經過 ReLU 號誌只讓正向訊號通過，途中還有 Dropout 隨機封路施工，迫使訊號學會多種路徑，最後在 Linear 出口閘道分流成 10 個方向，用來做分類決策。_____________________________________

✅ L2 正則化（權重衰減）📉

L2 正則化 = 在損失函數中加入權重平方的懲罰項

📌 損失函數變為：

Loss = 原始損失 + λ * Σ(w²)

📌 效果：

• 控制權重不要過大，降低模型複雜度

• 鼓勵模型簡化、避免過度擬合

📌 實作（PyTorch）：

python

import torch.optim as optim

optimizer = optim.Adam(model.parameters(), lr=0.001, weight_decay=1e-5)

________________________________________

✅ 常見正則化選擇建議：

情境建議方法

模型太複雜 / 資料量小 : L2 正則化、Dropout

訓練損失一直下降但測試不變或變差 : Early Stopping + Validation Set

圖像分類、語音處理等資料偏少場景 : Data Augmentation

深層網路訓練困難 : 加入 BatchNorm、使用 ReLU

________________________________________

✅ 小結與啟示 💡

✅ 過擬合 = 模型學得「太好了」，反而失去判斷力

✅ 正則化 = 幫模型設下「學習界線」，避免偷吃步

✅ Dropout 就像考試時關掉小抄 → 模型更強壯

✅ L2 正則化就像約束權重「不能太貪心」 → 更泛化

Hansen W的沙龍AI科技機器學習修煉坊

留言

留言分享你的想法！

Hansen W的沙龍

16會員

388內容數

AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台，主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例，更強調理性思維與行動力的結合。無論你是AI初學者、創業者，還是追求人生升維的行者，都能在這裡找到前進的方向與志同道合的夥伴。

Hansen W的沙龍的其他內容

2025/07/11

第二部：《深度學習》7/100 深度學習的應用場景 🌐 語音、影像、語意、創作全方位開花！

深度學習透過多層神經網路自動學習資料特徵，廣泛應用於語音辨識、影像處理、自然語言理解與創意生成等領域。其強大能力源於可處理非線性關係並支援結構化與非結構化資料，常見模型如 CNN、Transformer、GAN 等。應用實例包含 Siri 語音助理、醫療影像判讀、AI 作畫與機器翻譯等。

2025/07/11

第二部：《深度學習》7/100 深度學習的應用場景 🌐 語音、影像、語意、創作全方位開花！

2025/07/11

第二部：《深度學習》6/100 損失函數與優化器概念 📉 幫助模型走向正確方向的指南針！

損失函數用來衡量模型預測與實際結果的誤差，如 MSE、Cross Entropy 等；而優化器則根據這些誤差反向調整神經網路的權重與偏差，使模型學習更精準。常見優化器如 Adam 結合 Momentum 和 RMSProp，具備快速收斂與穩定性高的特點。兩者就像導航與方向盤，引導模型走向最優解。

2025/07/11

第二部：《深度學習》6/100 損失函數與優化器概念 📉 幫助模型走向正確方向的指南針！

2025/07/11

第二部：《深度學習》5/100激活函數介紹 🔥 ReLU、Sigmoid、Tanh 決定模型的生命力！

激活函數是神經網路中賦予模型非線性能力的關鍵元件，使其能處理複雜的模式與資料。若缺乏激活函數，多層網路將等同於單層線性模型。常見函數如 ReLU 計算快速且有效避免梯度消失，是中間層的主流選擇；Sigmoid 適用於二分類輸出；Softmax 則將輸出轉為機率分布，常用於多分類任務。

2025/07/11

第二部：《深度學習》5/100激活函數介紹 🔥 ReLU、Sigmoid、Tanh 決定模型的生命力！

看更多

你可能也想看

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

還在煩惱平凡日常該如何增添一點小驚喜嗎？全家便利商店這次聯手超萌的馬來貘，推出黑白配色的馬來貘雪糕，不僅外觀吸睛，層次豐富的雙層口味更是讓人一口接一口！本文將帶你探索馬來貘雪糕的多種創意吃法，從簡單的豆漿燕麥碗、藍莓果昔，到大人系的奇亞籽布丁下午茶，讓可愛的馬來貘陪你度過每一餐，增添生活中的小確幸！

#懶人料理#食譜#健康甜點

2025/10/15