第三部《強化學習》45/100 固定目標網路(Target Network)🔒 穩定訓練,防止發散!

更新 發佈閱讀 6 分鐘

AI時代系列(5) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》

45/100 第五週:📌 Deep Q-Network(DQN)與深度強化學習入門

45.固定目標網路(Target Network)🔒 穩定訓練,防止發散!

_______________________________________

🎯 單元導讀

在深度強化學習中,模型學習過程容易「不穩定」甚至「發散」,

尤其當神經網路同時用來產生預測值與計算目標值時,會導致學習方向自我牽動、自我干擾。

為了減少這種問題,DeepMind 提出了 Target Network(目標網路)機制,

藉由分離學習目標與學習本身,大幅提升了 DQN 的穩定性!

________________________________________

🧠 一、為什麼需要 Target Network?

在原始 Q-Learning 中,更新公式為:

Q(s, a) ← Q(s, a) + α * [r + γ * max Q(s', a') - Q(s, a)]

若直接用同一個神經網路估計 Q(s, a) 與 Q(s', a'):

容易產生高變異的學習信號

Q 值會自我影響,導致不穩定甚至發散!

👉 解法:使用一個凍結版本的網路 θ⁻ 來產生目標值

________________________________________

🔒 二、Target Network 機制說明

項目 說明

主網路(Online Network) 負責學習與更新,參數為 θ

目標網路(Target Network) 負責計算 TD 目標值,參數為 θ⁻

更新方式 每隔固定步數 τ 將 θ 複製給 θ⁻(硬更新)

TD 誤差損失計算:

y = r + γ * max_a' Q_target(s', a'; θ⁻)

Loss = (y - Q(s, a; θ))²

________________________________________

🔁 三、兩種 Target Network 更新方式

方法 說明 公式

硬更新(Hard Update) 每隔 N 步整體複製一次 θ⁻ ← θ

軟更新(Soft Update) 每步以小比例靠近主網路 θ⁻ ← τθ + (1 - τ)θ⁻

常見設定:

o 硬更新:每 1000 步同步一次

o 軟更新:τ 通常設為 0.001 或更小

________________________________________

🧪 四、Target Network 的實作範例(PyTorch)

python

# 假設 Q 和 Q_target 是兩個 nn.Module

Q = QNetwork()

Q_target = QNetwork()

# 初始化時複製參數

Q_target.load_state_dict(Q.state_dict())

# 每隔固定步驟做一次同步

if step % target_update_freq == 0:

Q_target.load_state_dict(Q.state_dict())

在 DQN 中,Q 和 Q_target 是兩個神經網路模型,Q 負責即時更新學習,而 Q_target 作為穩定的參考目標。剛初始化時,Q_target 會完整複製 Q 的權重參數(Q_target.load_state_dict(Q.state_dict()))。隨後,Q 會在每次訓練後不斷更新,而 Q_target 則不會立即跟著變動。為了讓學習目標穩定,每經過固定的訓練步數(例如 target_update_freq 次),再把最新的 Q 參數同步複製給 Q_target。這樣可以避免目標值快速震盪,穩定整個 Q 值學習過程,也是 DQN 成功的重要技巧之一。

________________________________________

📸 五、使用 Target Network 的好處

1️⃣ 降低 Q 值估計的波動

將目標值固定一段時間,減少自我牽動效應

2️⃣ 避免學習不穩定與爆炸

增加訓練的可預期性與收斂性

3️⃣ 更符合數學推導的 Q-Learning 精神

使用「固定的目標」做 TD 更新,是理論的關鍵基礎之一

________________________________________

🔍 六、生活中的類比與啟示

1️⃣ 主網路像你現在的行動力,目標網路像你當初立下的原則與目標

👉 如果每天都在變目標,就容易迷失方向;目標需要「定一陣子」。

2️⃣ 軟更新 vs. 硬更新?

👉 軟更新像「日常微調方向感」;硬更新像「每月回顧人生大計」

________________________________________

✅ 七、小結與啟示

使用 Target Network 是 DQN 成功的關鍵之一

分離學習主體與學習目標,有助於穩定訓練

可選擇硬更新(定期複製)或軟更新(指數平滑)

就像人生一樣:穩定的目標,是通往成功的導航器!


留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
9會員
274內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/09/24
Experience Replay 透過記憶池隨機抽樣過去經驗,打破時間相關性,提升學習效率與穩定性。Prioritized Replay 更聚焦於難學經驗,加速收斂。就像人類復盤與重點複習,讓 AI 學習更全面、有效。
2025/09/24
Experience Replay 透過記憶池隨機抽樣過去經驗,打破時間相關性,提升學習效率與穩定性。Prioritized Replay 更聚焦於難學經驗,加速收斂。就像人類復盤與重點複習,讓 AI 學習更全面、有效。
2025/09/24
適應性控制能讓機器人因應載重、摩擦與外部干擾變化,自我調整控制參數以保持穩定。透過即時監測傾角、誤差與載重,並依「先穩定後精準」邏輯調整 Kp、Kd、Ki,廣泛應用於無人機、自駕車、機械手臂和平衡機器人。
2025/09/24
適應性控制能讓機器人因應載重、摩擦與外部干擾變化,自我調整控制參數以保持穩定。透過即時監測傾角、誤差與載重,並依「先穩定後精準」邏輯調整 Kp、Kd、Ki,廣泛應用於無人機、自駕車、機械手臂和平衡機器人。
2025/09/24
ChatGPT 說: 傳統 Q 表格難以處理高維狀態空間,DQN 以神經網路逼近 Q 函數,能泛化經驗並學習複雜策略。其核心包含 TD 誤差更新、Replay Buffer 與 Target Network。雖有過度估計與過擬合風險,但應用於遊戲、自駕車、金融等場景展現強大實力。
2025/09/24
ChatGPT 說: 傳統 Q 表格難以處理高維狀態空間,DQN 以神經網路逼近 Q 函數,能泛化經驗並學習複雜策略。其核心包含 TD 誤差更新、Replay Buffer 與 Target Network。雖有過度估計與過擬合風險,但應用於遊戲、自駕車、金融等場景展現強大實力。
看更多
你可能也想看
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 86 提及 SuperGLUE 任務清單,當中會包含以下欄位: 名稱 (Name):經過微調的預訓練模型的下游任務的名稱 標識符
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 86 提及 SuperGLUE 任務清單,當中會包含以下欄位: 名稱 (Name):經過微調的預訓練模型的下游任務的名稱 標識符
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 新模型和 Human Baselines 排名將不斷變化,Human Baselines 的位置自從基礎模型出現以來,它就不再具有多大意義了,這些排名只是表明經典 NL
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 新模型和 Human Baselines 排名將不斷變化,Human Baselines 的位置自從基礎模型出現以來,它就不再具有多大意義了,這些排名只是表明經典 NL
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 仔細看 AI說書 - 從0開始 - 66 中,Decoder 的 Multi-Head Attention 框框,會發現有一條線空接,其實它是有意義的,之所以空接,是因
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 仔細看 AI說書 - 從0開始 - 66 中,Decoder 的 Multi-Head Attention 框框,會發現有一條線空接,其實它是有意義的,之所以空接,是因
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 接著來談 Transformer 架構中的 Feedforward Network (FFN): 其為全連接的神經網路架構 回顧 AI說書 - 從0開始 - 64
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 接著來談 Transformer 架構中的 Feedforward Network (FFN): 其為全連接的神經網路架構 回顧 AI說書 - 從0開始 - 64
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:AI
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:AI
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:AI
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:AI
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News