55/100 模型正則化(L1/L2 正則化) 📏 懲罰過度學習,讓模型學會適當的「簡約美」!

更新於 發佈於 閱讀時間約 7 分鐘

AI時代系列(3) 機器學習三部曲: 🔹 第一部:《機器學習 —— AI 智慧的啟航》


55/100 第六週:模型評估與優化


55. 模型正則化(L1/L2 正則化) 📏 懲罰過度學習,讓模型學會適當的「簡約美」!


模型正則化(L1/L2 正則化) 📏

懲罰過度學習,讓模型學會適當的「簡約美」!

________________________________________


🔎 一、什麼是模型正則化(Regularization)?


正則化是 抑制過擬合(Overfitting) 的關鍵技巧

透過在損失函數中加入「懲罰項」,限制模型權重大小,讓模型不會過度記住雜訊

核心概念:讓模型「簡單一點、規則一點」,學會重點而非細節

________________________________________


🌟 二、數學概念與公式


🔢 標準損失函數:


Loss=原本的損失(如 MSE)+λ×正則化項


其中:


原本的損失:常見如 MSE(均方誤差)、交叉熵等


λ(lambda):正則化強度的係數,越大表示越強的懲罰力度


正則化項:L1或 L2用來抑制模型複雜度、防止過擬合

________________________________________


🧠 三、兩大經典正則化方法


方法 公式 特色 適用情境


L1 正則化(Lasso) ∑w )

L2 正則化(Ridge) ∑w^2


✅ 讓權重變小但不會變 0

✅ 模型更平滑穩定 預防過擬合、適合連續性特徵

________________________________________

📈 四、L1 與 L2 正則化效果比較


L1(Lasso)與 L2(Ridge)是兩種常見的正則化方法,用於抑制模型過擬合。L1 正則化會讓部分權重變成 0,因此具有良好的特徵選擇能力,適合處理高維資料或特徵過多的情境;相對地,L2 正則化則會將權重平均地縮小,但不會讓它們歸零,因此模型較平滑但特徵選擇能力較弱。前者常用於 Lasso Regression,後者則應用於 Ridge Regression。選擇哪一種方法,需視資料特性與建模需求而定。

________________________________________


💻 五、Python 示範(以線性回歸為例)


import numpy as np

import matplotlib.pyplot as plt


# ✅ 解決負號與中文字亂碼問題

plt.rcParams['font.family'] = 'Microsoft JhengHei' # Windows 請用此字體

# plt.rcParams['font.family'] = 'PingFang TC' # macOS 可使用此字體

# plt.rcParams['font.family'] = 'Noto Sans CJK TC' # Linux 常見開源中文字體

plt.rcParams['axes.unicode_minus'] = False # ✅ 正確顯示負號(避免顯示為方塊)


# 權重範圍

w = np.linspace(-2, 2, 400)


# L1 與 L2 正則化懲罰項

l1_penalty = np.abs(w)

l2_penalty = w ** 2


# 繪圖

plt.figure(figsize=(8, 5))

plt.plot(w, l1_penalty, label='L1 正則化:|w|', color='orange', linewidth=2)

plt.plot(w, l2_penalty, label='L2 正則化:w²', color='blue', linewidth=2)

plt.axhline(0, color='gray', linewidth=0.5)

plt.axvline(0, color='gray', linewidth=0.5)


# 加入標題與軸標籤

plt.title("模型正則化(L1 vs L2)📏")

plt.xlabel("權重 w")

plt.ylabel("正則化懲罰值")

plt.legend()

plt.grid(True)

plt.tight_layout()

plt.show()


這段程式碼用圖形化方式比較了 L1(Lasso)與 L2(Ridge)正則化的懲罰效果,展示它們如何對模型權重 𝑤產生不同的影響。透過 NumPy 生成一組從 -2 到 2 的權重範圍,並分別計算 L1與 L2的懲罰值,再以 Matplotlib 繪圖。圖中可見 L1 呈現尖銳的 V 形、具有稀疏化能力,L2 則是光滑的 U 形、適合平滑縮小權重。此外,程式也設定中文字體與負號正確顯示,確保圖表在繁體中文環境下無亂碼,適合用於教學與模型正則化觀念說明。

________________________________________


🎯 六、正則化對模型的影響


✅ 減少模型對資料雜訊的敏感度

✅ 提升模型泛化能力,面對新資料也能穩定表現

✅ 讓模型學會「簡約美」:只學最關鍵的特徵,而非每個細節都死背

________________________________________

🌈 七、進階補充:Elastic Net


結合 L1 + L2 優點

兼具特徵選擇與平滑效果

適用於特徵多且有關聯性的數據集

________________________________________


📌 總結金句:


📏 正則化 = 模型的自律機制,適當「懲罰」過度複雜,讓 AI 懂得收斂與簡化!

________________________________________





留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
4會員
112內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/05/29
想讓你的模型穩準不爆炸?本週介紹的「早停技術(Early Stopping)」正是訓練過程中的智慧剎車!透過追蹤驗證誤差,在模型即將過擬合前自動停止訓練,提升泛化能力、節省資源,讓模型在最佳時機點完美收手。
Thumbnail
2025/05/29
想讓你的模型穩準不爆炸?本週介紹的「早停技術(Early Stopping)」正是訓練過程中的智慧剎車!透過追蹤驗證誤差,在模型即將過擬合前自動停止訓練,提升泛化能力、節省資源,讓模型在最佳時機點完美收手。
Thumbnail
2025/05/29
想讓你的機器學習模型真正發揮實力?第六週的「超參數調整」單元正是關鍵!本課深入解析 Grid Search、Random Search、Bayesian Optimization 三大方法,搭配實戰範例與 Python 實作,讓你從理解到操作一次搞懂。
Thumbnail
2025/05/29
想讓你的機器學習模型真正發揮實力?第六週的「超參數調整」單元正是關鍵!本課深入解析 Grid Search、Random Search、Bayesian Optimization 三大方法,搭配實戰範例與 Python 實作,讓你從理解到操作一次搞懂。
Thumbnail
2025/05/29
透過交叉驗證,你的 AI 模型不再「見樹不見林」!本章精講 K-Fold、Stratified 與 Time Series Split,搭配 Python 實作,快速評估穩健性、調校超參數,避免過擬合,打造高可信度智慧模型;金融風控、醫療診斷等高風險場景首選。
Thumbnail
2025/05/29
透過交叉驗證,你的 AI 模型不再「見樹不見林」!本章精講 K-Fold、Stratified 與 Time Series Split,搭配 Python 實作,快速評估穩健性、調校超參數,避免過擬合,打造高可信度智慧模型;金融風控、醫療診斷等高風險場景首選。
Thumbnail
看更多
你可能也想看
Thumbnail
家中修繕或裝潢想要找各種小零件時,直接上網採買可以省去不少煩惱~看看Sylvia這回為了工地買了些什麼吧~
Thumbnail
家中修繕或裝潢想要找各種小零件時,直接上網採買可以省去不少煩惱~看看Sylvia這回為了工地買了些什麼吧~
Thumbnail
👜簡單生活,從整理包包開始!我的三款愛用包+隨身小物清單開箱,一起來看看我每天都帶些什麼吧🌿✨
Thumbnail
👜簡單生活,從整理包包開始!我的三款愛用包+隨身小物清單開箱,一起來看看我每天都帶些什麼吧🌿✨
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 127 中提及: Transformer 的關鍵參數為: 原始 Transformer 模型中,左圖的 N = 6 原始 Tran
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 127 中提及: Transformer 的關鍵參數為: 原始 Transformer 模型中,左圖的 N = 6 原始 Tran
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 69 的第二章內容,我們拿 Encoder 出來看: 幾點注意如下: BERT 模型使用 M
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 69 的第二章內容,我們拿 Encoder 出來看: 幾點注意如下: BERT 模型使用 M
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型,並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing,現
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型,並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing,現
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。 現在我們來載入預訓練權重,預訓練的權重包含 Transformer 的智慧
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。 現在我們來載入預訓練權重,預訓練的權重包含 Transformer 的智慧
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 新模型和 Human Baselines 排名將不斷變化,Human Baselines 的位置自從基礎模型出現以來,它就不再具有多大意義了,這些排名只是表明經典 NL
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 新模型和 Human Baselines 排名將不斷變化,Human Baselines 的位置自從基礎模型出現以來,它就不再具有多大意義了,這些排名只是表明經典 NL
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News