AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》
58/100 第六週:📌 策略梯度與 Actor-Critic 架構
58.Entropy Regularization 熵正則化 🔥 鼓勵探索,避免單一策略!
________________________________________
🎯 單元導讀
在強化學習中,策略模型有時會過早收斂到某個固定動作,錯失更優解的機會。這就是「探索不足、利用過早」的問題。
為了讓策略保持多樣性並繼續探索,我們引入 Entropy Regularization 熵正則化 ——
讓模型在學習的同時保持不確定性,從而提升整體策略表現!
________________________________________
🧠 一、什麼是熵(Entropy)?
在資訊理論中,熵衡量一個機率分布的不確定程度:
H(π) = - ∑ π(a|s) * log π(a|s)
• 若策略 π(a|s) 非常偏向某一個動作,熵很小(代表非常確定)
• 若策略對多個動作機率接近平均,熵較大(代表保持探索)
________________________________________
🔁 二、為什麼要正則化策略的熵?
在策略更新過程中,我們希望策略不要太早只選一個「看似最好」的行動。
→ 加入熵正則項可以鼓勵策略「保留多樣性」:
修改後的損失函數變為:
J(θ) = E[log πθ(a|s) * A(s,a)] + β * H(π)
其中:
• 第一項是原本的策略梯度
• 第二項是熵項,乘上一個係數 β(控制探索程度)
________________________________________
🔍 三、熵正則化的效果比較
在策略學習中,若每次都選固定動作,策略的熵值會很低,容易過早收斂在局部最優;若動作機率維持均勻分布,熵值偏高,可持續探索但收斂較慢;而透過熵正則化,適度鼓勵策略維持一定的隨機性,讓熵值保持在中高水準,平衡探索與收斂,有助於避免陷入局部最優,同時提升整體學習穩定性與效率。
________________________________________
🧪 四、應用場景與優點
在不同場景中,熵正則化能有效幫助策略避免陷入單一路徑:在 Atari 遊戲訓練中,防止策略過早僅重複單一動作;在自駕車路徑選擇中,鼓勵探索多種可行路線,提升適應新環境的能力;而在多目標強化學習中,熵正則化幫助策略在多個目標之間維持探索平衡,避免過度偏向單一子目標,提升整體任務表現與穩定性。
________________________________________
⚙️ 五、參數 β 的調整建議
β 值 效果
太小 與沒加熵差不多,策略仍容易過早收斂
適中 策略能穩定學習並維持探索
太大 反而無法學習有效策略,行動過於隨機
通常初學者可以從 β = 0.01~0.1 開始嘗試。
________________________________________
💭 六、問題與思考
1️⃣ 如果策略每次都只選「目前最好的動作」,會發生什麼問題?
👉
若每次都只選擇當前 Q 值或策略機率最高的動作,容易過早收斂在局部最優,特別是在環境初期了解不足時,可能錯過其他潛在更優的策略。缺乏探索會讓模型在未來難以修正錯誤認知,導致長期表現受限,甚至在環境變化時無法適應。
2️⃣ 加入熵正則化後,模型會有哪些學習行為上的改變?
👉
加入熵正則化後,模型在訓練過程中會保留一定的隨機性,即使暫時學會某些高回報動作,仍會適度嘗試其他選擇,避免策略過度單一化。這種持續探索能提升適應性、降低陷入次優策略的風險,學習曲線雖可能收斂稍慢,但長期穩定性與最終表現更好。
3️⃣ 在你的生活中,有哪些行為是你「不確定」但願意嘗試的探索?
👉
例如:
報名一門從未學過的新課程
嘗試不同的投資標的
參加陌生社交活動或拓展新圈子
寫作、創業、轉換新領域職涯
這些都是帶有「高熵探索」特質的行為:結果尚不確定,但願意保留嘗試的空間,為未來可能的收穫建立更多可能性。
________________________________________
✅ 七、小結與啟示
• 熵代表策略的「不確定性」,鼓勵模型探索
• 熵正則化能防止策略提早陷入單一行為
• 調整 β 參數,可在探索與收斂間取得平衡
• 就像人生學習一樣,多探索才有機會走到更遠!