第二部:《深度學習》14/100 學習率與梯度下降技巧 📉 調得好,收斂快又穩!

更新於 發佈於 閱讀時間約 6 分鐘

AI時代系列(2) 機器學習三部曲: 🔹 第二部:《深度學習 —— 神經網路的革命》

14/100 第二週:多層感知器 MLP

14.學習率與梯度下降技巧 📉 調得好,收斂快又穩!

________________________________________

✅ 核心概念:

神經網路如何從錯誤中學習?靠的就是**梯度下降法(Gradient Descent)與學習率(Learning Rate)**這對「調參拍檔」。

📌 梯度告訴模型往哪裡調整參數

📌 學習率決定每一步「走多遠」

________________________________________

🔍 學習率是什麼?

學習率(α)是一個超參數,用來控制模型每次更新權重的「步伐大小」。

學習率情況 結果

太小(如 0.00001) 進步非常慢,收斂時間長

太大(如 1.0) 容易震盪不收斂,甚至錯過最小值

剛剛好(如 0.001) 模型快速收斂,穩定逼近最佳解

________________________________________

🧠 梯度下降原理簡介:

假設損失函數為 L,參數為 w:

w_new = w_old - α * ∂L/∂w

📌 每一次權重更新,就是往誤差最小方向「下降一小步」。

________________________________________

📊 梯度下降法的變種:

演算法: 特性說明: 常見應用:

Batch GD 用所有資料計算梯度,收斂穩定但慢 小資料集

Stochastic GD 每次只用一筆資料更新,速度快但不穩定 線上學習、即時應用

Mini-batch GD 取一小批資料計算梯度,兼顧效率與穩定性(實務主流) 大型深度學習訓練

________________________________________

🔧 實用技巧一覽:

Learning Rate Decay: 訓練後期自動降低學習率,幫助模型更細緻地收斂

Momentum: 加入「慣性」讓更新方向更穩定,避免上下震盪

Adam 優化器: 自動調整每個參數的學習率,結合 Momentum + RMSProp

Warm-up: 訓練初期先用小學習率「暖身」,避免模型爆炸

________________________________________

📘 TensorFlow 實作(Adam + 學習率調整):


python


optimizer = tf.keras.optimizers.Adam(learning_rate=0.001)


model.compile(optimizer=optimizer,

loss='sparse_categorical_crossentropy',

metrics=['accuracy'])


📌 若使用 LearningRateScheduler:


python


from tensorflow.keras.callbacks import LearningRateScheduler


def lr_schedule(epoch):

return 0.001 * (0.1 ** (epoch // 10)) # 每10輪下降一次


lr_callback = LearningRateScheduler(lr_schedule)

model.fit(x_train, y_train, epochs=30, callbacks=[lr_callback])

這段程式碼首先使用 Adam 優化器並設定初始學習率為 0.001,然後透過 model.compile() 指定損失函數為 sparse_categorical_crossentropy(適用於整數編碼的多分類問題),並追蹤 accuracy 作為評估指標。接著定義 lr_schedule() 函數,讓學習率每經過 10 個 epoch 就縮小為原來的 0.1,並透過 LearningRateScheduler callback 將這個排程策略套用到訓練過程中。最後用 model.fit() 執行訓練,共 30 個 epoch,並在每一輪根據當前 epoch 調整學習率,提升訓練效率與穩定性。

________________________________________

🧩 學習率選得好,事半功倍!

學習率太大 📈 → 模型來回跳、學不到穩定解

學習率太小 📉 → 訓練時間長、效果緩慢

學習率剛好 ✅ → 快速收斂、穩定準確

________________________________________

🎯 小結與啟示:

✅ 學習率是深度學習中最敏感的超參數之一

✅ 好的學習率設計,能讓訓練變得快速且精準

✅ Adam 已成現代訓練的首選,但學會背後邏輯,才能真正掌握調參節奏!



留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
8會員
119內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/08/29
激活函數是神經網路能學習非線性特徵的關鍵,沒有它,無論堆疊多少層都只是線性模型。常見激活函數如 ReLU、Sigmoid、Tanh、Leaky ReLU、Softmax 各有用途,其中 ReLU 最常用,具高效與快速收斂優點。選擇合適的激活函數能讓模型具備更強的表達力與判斷力,是深度學習的核心之一。
2025/08/29
激活函數是神經網路能學習非線性特徵的關鍵,沒有它,無論堆疊多少層都只是線性模型。常見激活函數如 ReLU、Sigmoid、Tanh、Leaky ReLU、Softmax 各有用途,其中 ReLU 最常用,具高效與快速收斂優點。選擇合適的激活函數能讓模型具備更強的表達力與判斷力,是深度學習的核心之一。
2025/08/29
隱藏層讓神經網路能學習資料中的抽象特徵與非線性關係。若只有輸入與輸出層,模型僅能學習簡單的線性對應,難以處理複雜問題。加入隱藏層後,模型能逐層提取更深層的模式與結構,是深度學習成功的關鍵。隱藏層越多,模型表達力越強,但也需注意過擬合風險。
2025/08/29
隱藏層讓神經網路能學習資料中的抽象特徵與非線性關係。若只有輸入與輸出層,模型僅能學習簡單的線性對應,難以處理複雜問題。加入隱藏層後,模型能逐層提取更深層的模式與結構,是深度學習成功的關鍵。隱藏層越多,模型表達力越強,但也需注意過擬合風險。
2025/08/29
多層感知器(MLP)是最基本的前饋神經網路,由輸入層、隱藏層與輸出層組成,並透過多層全連接層逐步提取特徵。每層節點與前一層所有節點相連,常搭配非線性激活函數如 ReLU,使模型具備學習複雜關係的能力。MLP 是深度學習的基礎結構之一,廣泛應用於分類與回歸任務中。
2025/08/29
多層感知器(MLP)是最基本的前饋神經網路,由輸入層、隱藏層與輸出層組成,並透過多層全連接層逐步提取特徵。每層節點與前一層所有節點相連,常搭配非線性激活函數如 ReLU,使模型具備學習複雜關係的能力。MLP 是深度學習的基礎結構之一,廣泛應用於分類與回歸任務中。
看更多
你可能也想看
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 新模型和 Human Baselines 排名將不斷變化,Human Baselines 的位置自從基礎模型出現以來,它就不再具有多大意義了,這些排名只是表明經典 NL
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 新模型和 Human Baselines 排名將不斷變化,Human Baselines 的位置自從基礎模型出現以來,它就不再具有多大意義了,這些排名只是表明經典 NL
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 xxx 提到,既然提到訓練,就表示要有一套衡量基準供大家遵守,有鑑於此,以下繼續介紹幾類衡量方式: MCC: 首先介紹 True (T) Positive (
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 xxx 提到,既然提到訓練,就表示要有一套衡量基準供大家遵守,有鑑於此,以下繼續介紹幾類衡量方式: MCC: 首先介紹 True (T) Positive (
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 如 AI說書 - 從0開始 - 78 所述,經過 AI說書 - 從0開始 - 74 到目前為止的實驗,應可以漸漸感受到 Transformer 模型如何從數學層面漸漸往
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 如 AI說書 - 從0開始 - 78 所述,經過 AI說書 - 從0開始 - 74 到目前為止的實驗,應可以漸漸感受到 Transformer 模型如何從數學層面漸漸往
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 已經在AI說書 - 從0開始 - 12以及AI說書 - 從0開始 - 13中見識到TPU的威力了,現在我們把參數放大到真實大型語言模型的規模,看看運算時間的等級。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 已經在AI說書 - 從0開始 - 12以及AI說書 - 從0開始 - 13中見識到TPU的威力了,現在我們把參數放大到真實大型語言模型的規模,看看運算時間的等級。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News