第三部《強化學習》58/100 Entropy Regularization 熵正則化 🔥 鼓勵探索,避免單一策略!

更新 發佈閱讀 5 分鐘

AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》

58/100 第六週:📌 策略梯度與 Actor-Critic 架構

58.Entropy Regularization 熵正則化 🔥 鼓勵探索,避免單一策略!

________________________________________

🎯 單元導讀

在強化學習中,策略模型有時會過早收斂到某個固定動作,錯失更優解的機會。這就是「探索不足、利用過早」的問題。

為了讓策略保持多樣性並繼續探索,我們引入 Entropy Regularization 熵正則化 ——

讓模型在學習的同時保持不確定性,從而提升整體策略表現!

________________________________________

🧠 一、什麼是熵(Entropy)?

在資訊理論中,熵衡量一個機率分布的不確定程度:

H(π) = - ∑ π(a|s) * log π(a|s)

若策略 π(a|s) 非常偏向某一個動作,熵很小(代表非常確定)

若策略對多個動作機率接近平均,熵較大(代表保持探索)

________________________________________

🔁 二、為什麼要正則化策略的熵?

在策略更新過程中,我們希望策略不要太早只選一個「看似最好」的行動。

→ 加入熵正則項可以鼓勵策略「保留多樣性」:

修改後的損失函數變為:

J(θ) = E[log πθ(a|s) * A(s,a)] + β * H(π)

其中:

第一項是原本的策略梯度

第二項是熵項,乘上一個係數 β(控制探索程度)

________________________________________


🔍 三、熵正則化的效果比較

在策略學習中,若每次都選固定動作,策略的熵值會很低,容易過早收斂在局部最優;若動作機率維持均勻分布,熵值偏高,可持續探索但收斂較慢;而透過熵正則化,適度鼓勵策略維持一定的隨機性,讓熵值保持在中高水準,平衡探索與收斂,有助於避免陷入局部最優,同時提升整體學習穩定性與效率。

________________________________________

🧪 四、應用場景與優點

在不同場景中,熵正則化能有效幫助策略避免陷入單一路徑:在 Atari 遊戲訓練中,防止策略過早僅重複單一動作;在自駕車路徑選擇中,鼓勵探索多種可行路線,提升適應新環境的能力;而在多目標強化學習中,熵正則化幫助策略在多個目標之間維持探索平衡,避免過度偏向單一子目標,提升整體任務表現與穩定性。

________________________________________

⚙️ 五、參數 β 的調整建議

β 值 效果

太小 與沒加熵差不多,策略仍容易過早收斂

適中 策略能穩定學習並維持探索

太大 反而無法學習有效策略,行動過於隨機

通常初學者可以從 β = 0.01~0.1 開始嘗試。

________________________________________

💭 六、問題與思考

1️⃣ 如果策略每次都只選「目前最好的動作」,會發生什麼問題?

👉

若每次都只選擇當前 Q 值或策略機率最高的動作,容易過早收斂在局部最優,特別是在環境初期了解不足時,可能錯過其他潛在更優的策略。缺乏探索會讓模型在未來難以修正錯誤認知,導致長期表現受限,甚至在環境變化時無法適應。

2️⃣ 加入熵正則化後,模型會有哪些學習行為上的改變?

👉

加入熵正則化後,模型在訓練過程中會保留一定的隨機性,即使暫時學會某些高回報動作,仍會適度嘗試其他選擇,避免策略過度單一化。這種持續探索能提升適應性、降低陷入次優策略的風險,學習曲線雖可能收斂稍慢,但長期穩定性與最終表現更好。

3️⃣ 在你的生活中,有哪些行為是你「不確定」但願意嘗試的探索?

👉

例如:

報名一門從未學過的新課程

嘗試不同的投資標的

參加陌生社交活動或拓展新圈子

寫作、創業、轉換新領域職涯

這些都是帶有「高熵探索」特質的行為:結果尚不確定,但願意保留嘗試的空間,為未來可能的收穫建立更多可能性。

________________________________________

✅ 七、小結與啟示

熵代表策略的「不確定性」,鼓勵模型探索

熵正則化能防止策略提早陷入單一行為

調整 β 參數,可在探索與收斂間取得平衡

就像人生學習一樣,多探索才有機會走到更遠!


留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
10會員
274內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/09/25
A2C 是 Actor-Critic 的強化版,透過 Advantage 函數減少方差,提升學習穩定性與效率。它結合 Actor 策略學習與 Critic 價值估計,適用於遊戲、自駕與對話系統,常優於 REINFORCE,能更精確聚焦「比預期更好」的行動。
2025/09/25
A2C 是 Actor-Critic 的強化版,透過 Advantage 函數減少方差,提升學習穩定性與效率。它結合 Actor 策略學習與 Critic 價值估計,適用於遊戲、自駕與對話系統,常優於 REINFORCE,能更精確聚焦「比預期更好」的行動。
2025/09/25
Baseline 是策略梯度中的穩定化技巧,透過扣除基準值(常用 V(s))減少方差,使學習更穩定快速。它不改變期望,只降低噪音影響,常與 Advantage 結合。應用於投資、控制等任務,可專注於「超越平均」的行為,提升策略效果。
2025/09/25
Baseline 是策略梯度中的穩定化技巧,透過扣除基準值(常用 V(s))減少方差,使學習更穩定快速。它不改變期望,只降低噪音影響,常與 Advantage 結合。應用於投資、控制等任務,可專注於「超越平均」的行為,提升策略效果。
2025/09/25
優勢函數用來判斷某動作比平均預期好多少,核心是 A(s,a) = Q(s,a) - V(s)。它能降低方差、提升學習穩定性,常與 TD 誤差搭配使用。應用於 A2C、PPO 等演算法,幫助 Actor 聚焦在「優於平均」的行為,加速策略收斂。
2025/09/25
優勢函數用來判斷某動作比平均預期好多少,核心是 A(s,a) = Q(s,a) - V(s)。它能降低方差、提升學習穩定性,常與 TD 誤差搭配使用。應用於 A2C、PPO 等演算法,幫助 Actor 聚焦在「優於平均」的行為,加速策略收斂。
看更多
你可能也想看
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 69 的第二章內容,我們拿 Encoder 出來看: 幾點注意如下: BERT 模型使用 M
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 69 的第二章內容,我們拿 Encoder 出來看: 幾點注意如下: BERT 模型使用 M
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型,並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing,現
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型,並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing,現
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 如 AI說書 - 從0開始 - 78 所述,經過 AI說書 - 從0開始 - 74 到目前為止的實驗,應可以漸漸感受到 Transformer 模型如何從數學層面漸漸往
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 如 AI說書 - 從0開始 - 78 所述,經過 AI說書 - 從0開始 - 74 到目前為止的實驗,應可以漸漸感受到 Transformer 模型如何從數學層面漸漸往
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News