第二部:《深度學習》8/100 過擬合與正則化方法 🧪 Dropout、L2 正則化讓模型不作弊!

更新於 發佈於 閱讀時間約 5 分鐘

AI時代系列(2) 機器學習三部曲: 🔹 第二部:《深度學習 —— 神經網路的革命》

8/100 第一週:深度學習基礎入門

8.過擬合與正則化方法 🧪 Dropout、L2 正則化讓模型不作弊!

________________________________________

✅ 核心概念:

在訓練神經網路時,如果模型記住了訓練資料的細節與噪聲,卻無法泛化到新資料,我們稱之為「過擬合(Overfitting)」。

這就像學生死背答案,在模擬考拿高分,但到了真正考試卻表現慘烈。為了解決這個問題,我們需要「正則化(Regularization)」技術,讓模型學得「剛剛好」。

📌 一句話總結:

模型不是要完美記住訓練資料,而是要學會抽象規律。

________________________________________

✅ 過擬合的特徵與成因:

現象 - 解釋

訓練準確率高,測試準確率低 - 模型記住訓練資料,但無法泛化

損失函數在測試集上開始反彈 - 模型學到太多資料中的雜訊

網路太深 / 參數太多 模型容量過大,容易記住不必要細節

訓練次數過多 學太久 → 產生記憶效應

________________________________________

✅ 常見正則化方法一覽:

方法 : 概念 : 效果與用途

Dropout : 訓練時隨機「關掉」部分神經元 : 強制網路不能依賴特定神經元,提升泛化能力

L2 正則化 : 權重懲罰項,鼓勵小權重 : 抑制過大權重,讓模型更平滑

Early Stopping : 在驗證集表現最佳時提前停止訓練 : 避免訓練過頭

Data Augmentation : 擴增資料多樣性 : 增加泛化能力,常用於圖像/語音

Batch Normalization : 穩定輸入分佈 : 加速訓練並具備微正則化效果

________________________________________

✅ Dropout 機制 🔌

Dropout = 在每次訓練時隨機丟棄神經元

📌 概念:

每次前向傳播,隨機選擇一部分神經元不參與計算

減少神經元之間的依賴,提升模型魯棒性

📌 實作(PyTorch):

python

import torch.nn as nn


model = nn.Sequential(

nn.Linear(128, 64),

nn.ReLU(),

nn.Dropout(p=0.5), # 50% 機率關閉

nn.Linear(64, 10)

)

這個模型就像一座小城市:資料從 128 維入口大門 進來,先經過 Linear 壓縮成 64 維大道,再經過 ReLU 號誌只讓正向訊號通過,途中還有 Dropout 隨機封路施工,迫使訊號學會多種路徑,最後在 Linear 出口閘道分流成 10 個方向,用來做分類決策。_____________________________________

✅ L2 正則化(權重衰減)📉

L2 正則化 = 在損失函數中加入權重平方的懲罰項

📌 損失函數變為:

Loss = 原始損失 + λ * Σ(w²)

📌 效果:

控制權重不要過大,降低模型複雜度

鼓勵模型簡化、避免過度擬合

📌 實作(PyTorch):

python

import torch.optim as optim

optimizer = optim.Adam(model.parameters(), lr=0.001, weight_decay=1e-5)

________________________________________

✅ 常見正則化選擇建議:

情境 建議方法

模型太複雜 / 資料量小 : L2 正則化、Dropout

訓練損失一直下降但測試不變或變差 : Early Stopping + Validation Set

圖像分類、語音處理等資料偏少場景 : Data Augmentation

深層網路訓練困難 : 加入 BatchNorm、使用 ReLU

________________________________________

✅ 小結與啟示 💡

✅ 過擬合 = 模型學得「太好了」,反而失去判斷力

✅ 正則化 = 幫模型設下「學習界線」,避免偷吃步

✅ Dropout 就像考試時關掉小抄 → 模型更強壯

✅ L2 正則化就像約束權重「不能太貪心」 → 更泛化


留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
8會員
119內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/07/11
深度學習透過多層神經網路自動學習資料特徵,廣泛應用於語音辨識、影像處理、自然語言理解與創意生成等領域。其強大能力源於可處理非線性關係並支援結構化與非結構化資料,常見模型如 CNN、Transformer、GAN 等。應用實例包含 Siri 語音助理、醫療影像判讀、AI 作畫與機器翻譯等。
2025/07/11
深度學習透過多層神經網路自動學習資料特徵,廣泛應用於語音辨識、影像處理、自然語言理解與創意生成等領域。其強大能力源於可處理非線性關係並支援結構化與非結構化資料,常見模型如 CNN、Transformer、GAN 等。應用實例包含 Siri 語音助理、醫療影像判讀、AI 作畫與機器翻譯等。
2025/07/11
損失函數用來衡量模型預測與實際結果的誤差,如 MSE、Cross Entropy 等;而優化器則根據這些誤差反向調整神經網路的權重與偏差,使模型學習更精準。常見優化器如 Adam 結合 Momentum 和 RMSProp,具備快速收斂與穩定性高的特點。兩者就像導航與方向盤,引導模型走向最優解。
2025/07/11
損失函數用來衡量模型預測與實際結果的誤差,如 MSE、Cross Entropy 等;而優化器則根據這些誤差反向調整神經網路的權重與偏差,使模型學習更精準。常見優化器如 Adam 結合 Momentum 和 RMSProp,具備快速收斂與穩定性高的特點。兩者就像導航與方向盤,引導模型走向最優解。
2025/07/11
激活函數是神經網路中賦予模型非線性能力的關鍵元件,使其能處理複雜的模式與資料。若缺乏激活函數,多層網路將等同於單層線性模型。常見函數如 ReLU 計算快速且有效避免梯度消失,是中間層的主流選擇;Sigmoid 適用於二分類輸出;Softmax 則將輸出轉為機率分布,常用於多分類任務。
2025/07/11
激活函數是神經網路中賦予模型非線性能力的關鍵元件,使其能處理複雜的模式與資料。若缺乏激活函數,多層網路將等同於單層線性模型。常見函數如 ReLU 計算快速且有效避免梯度消失,是中間層的主流選擇;Sigmoid 適用於二分類輸出;Softmax 則將輸出轉為機率分布,常用於多分類任務。
看更多
你可能也想看
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型,並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing,現
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型,並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing,現
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。 現在我們來載入預訓練權重,預訓練的權重包含 Transformer 的智慧
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。 現在我們來載入預訓練權重,預訓練的權重包含 Transformer 的智慧
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 如 AI說書 - 從0開始 - 78 所述,經過 AI說書 - 從0開始 - 74 到目前為止的實驗,應可以漸漸感受到 Transformer 模型如何從數學層面漸漸往
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 如 AI說書 - 從0開始 - 78 所述,經過 AI說書 - 從0開始 - 74 到目前為止的實驗,應可以漸漸感受到 Transformer 模型如何從數學層面漸漸往
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
Thumbnail
延續上週提到的,「有哪些不訓練模型的情況下,能夠強化語言模型的能力」,這堂課接續介紹其中第 3、4 個方法
Thumbnail
延續上週提到的,「有哪些不訓練模型的情況下,能夠強化語言模型的能力」,這堂課接續介紹其中第 3、4 個方法
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News